惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

SecWiki News
SecWiki News
I
InfoQ
The Cloudflare Blog
人人都是产品经理
人人都是产品经理
博客园 - Franky
T
Tailwind CSS Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
量子位
博客园_首页
罗磊的独立博客
V
V2EX
李成银的技术随笔
大猫的无限游戏
大猫的无限游戏
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
T
True Tiger Recordings
Vercel News
Vercel News
Cyberwarzone
Cyberwarzone
Cisco Talos Blog
Cisco Talos Blog
F
Fox-IT International blog
D
Darknet – Hacking Tools, Hacker News & Cyber Security
M
Microsoft Research Blog - Microsoft Research
Know Your Adversary
Know Your Adversary
爱范儿
爱范儿
The Register - Security
The Register - Security
G
Google Developers Blog
The Hacker News
The Hacker News
Malwarebytes
Malwarebytes
S
Securelist
博客园 - 三生石上(FineUI控件)
Jina AI
Jina AI
T
Threat Research - Cisco Blogs
T
The Exploit Database - CXSecurity.com
S
SegmentFault 最新的问题
博客园 - 叶小钗
F
Fortinet All Blogs
Apple Machine Learning Research
Apple Machine Learning Research
宝玉的分享
宝玉的分享
博客园 - 聂微东
T
Threatpost
博客园 - 【当耐特】
D
Docker
P
Privacy & Cybersecurity Law Blog
www.infosecurity-magazine.com
www.infosecurity-magazine.com
G
GRAHAM CLULEY
V
Visual Studio Blog
C
Cisco Blogs
IT之家
IT之家
S
Security Archives - TechRepublic
Latest news
Latest news
阮一峰的网络日志
阮一峰的网络日志

Mox的笔记库

细嗦下MLIR的环境搭建 | Mox的笔记库 博客重构:从Hexo到Astro | Mox的笔记库 2026PPoPP MLIR Tutorial学习 | Mox的笔记库 MacOS配置《明日方舟:终末地》 | Mox的笔记库 2025:向内生长 | Mox的笔记库 由mlir::ExecutionEngine引发的跨系统问题 | Mox的笔记库 WSL2配置Cuda-Tile环境记录(未完待续) | Mox的笔记库 Vibe Coding手搓项目记录 | Mox的笔记库 给Debian上包——以DuckDB为例 | Mox的笔记库 UCPD.sys事件存档 | Mox的笔记库 换新电脑之Mac mini M4从购买到配置 | Mox的笔记库 Mac配置MLX-C开发环境 | Mox的笔记库 RISC-V meets RDBMS——RISC-V架构上可运行数据库一览 | Mox的笔记库 DuckDB Sort实现调查 | Mox的笔记库 修复Redis在树莓派5上无法运行的问题 | Mox的笔记库 如何在MLIR中自定义类型并且输出运行 | Mox的笔记库 网站网络结构变更记录 | Mox的笔记库 EDBT25论文阅读:PhoebeDB——A Disk-Based RDBMS Kernel for High-Performance and Cost-Effective OLTP SIGMOD25论文阅读:BPF-DB:——A Kernel-Embedded Transactional Database Management System For eBPF Applications SIGMOD24文章阅读:Query Compilation Without Regrets | Mox的笔记库 论文阅读:Designing an Open Framework for Query Optimization and Compilation Apache Arrow Gandiva项目解析 | Mox的笔记库 VLDB24论文阅读:Cloud-Native Database Systems and Unikernels——Reimagining OS Abstractions for Modern Hardware NoisePage源码分析(未完待续) | Mox的笔记库 VLDB20论文阅读:Mainlining Databases——Supporting Fast Transactional Workloads on Universal Columnar Data File Formats VLDB17论文阅读:Relaxed Operator Fusion for In-Memory Databases:Making Compilation, Vectorization, and Prefetching Work Together At Last 论文阅读:How not to structure your database-backed web applications——a study of performance bugs in the wild SIGMOD24阅读:ROME——Robust Query Optimization via Parallel Multi-Plan Execution 文章阅读:First Past the Post-Evaluating Query Optimization in MongoDB SIGMOD文章阅读:Apache Calcite——A Foundational Framework for Optimized Query Processing Over Heterogeneous Data Sources VLDB23论文阅读:Analyzing the Impact of Cardinality Estimation on Execution Plans in Microsoft SQL Server SIGMOD22论文阅读:Efficient Massively Parallel Join Optimization for Large Queries VLDB论文阅读:Weaving Relations for Cache Performance VLDB22论文阅读:ConnectorX——Accelerating Data Loading From Databases to Dataframes 论文阅读:UniKraft-Fast, Specialized Unikernels the Easy Way 当DuckDB遇上RISC-V | Mox的笔记库 SIGMOD25论文阅读:An Elephant Under The Microscope——Analyzing The Interaction Of Optimizer Components In PostgreSQL 论文阅读:Compile-Time Analysis of Compiler Frameworks for Query Compilation VLDB23阅读:Bringing Compiling Databases to RISC Architectures LingoDB源码编译与分析 | Mox的笔记库 淦!MLIR输出Hello World不应该这么难! | Mox的笔记库 如何愉快的运行一个MLIR程序 | Mox的笔记库 2024:拥挤年代的想象与创造 | Mox的笔记库 如何给自己的博客添加MLIR和LLVM IR语法高亮 | Mox的笔记库 VLDB19-Parsing Gigabytes of JSON per Second论文阅读 CIDR25:Runtime-Extensible Parsers阅读 | Mox的笔记库 MLIR学习资料整理 | Mox的笔记库 SIGMOD24文章阅读:VeriTxn | Mox的笔记库 VLDB23文章阅读——Exploiting Cloud Object Storage for High-Performance Analytics VLDB24——OLAP on Modern Chiplet-Based Processors走马观花阅读 VLDB22:YeSQL文章阅读(已废弃) | Mox的笔记库 如何让数据库中的Python跑的更快-VLDB22-YeSQL文章阅读 | Mox的笔记库 你好,世界! | Mox的笔记库 让系统研究更有意义:HarmonyOS NEXT的教训和经验——讲座回顾 | Mox的笔记库 UNSW 24T3 COMP9336上课记录 | Mox的笔记库 MLIR Toy Tutorial实践记录 | Mox的笔记库 论文阅读:Declarative Sub-Operators for Universal Data Processing LLVM-Kaleidoscope实操踩坑记录 | Mox的笔记库 2024年7月RSSHub开发体验 | Mox的笔记库 澳洲大学计算机硕士比较 | Mox的笔记库 论文阅读——CDUL:CLIP-Driven Unsupervised Learning for Multi-Label Image Classification 论批量快速添加图片与视频水印的事 | Mox的笔记库 CVPR2023-CLIP算法调研 | Mox的笔记库 基于元信息写入的服务器压力测试 | Mox的笔记库 MjAyMw==,希望,前进与平庸之道 | Mox的笔记库 家庭组网IPv6+Mesh折腾 | Mox的笔记库 code-server初体验 | Mox的笔记库 从Nginx到Caddy | Mox的笔记库 Hexo部署安装全流程回顾 | Mox的笔记库 RMM观察与初探 | Mox的笔记库 计算机网络课设——UDP/TCP/TLS Socket实验 | Mox的笔记库 JQuery的XSS初探 | Mox的笔记库 生产实习记录 | Mox的笔记库 Fedora-CoreOS配置与试用(2023年) | Mox的笔记库 Electron学习笔记 | Mox的笔记库 ServerSentEvent学习 | Mox的笔记库 报告翻译:容器云的安全挑战 | Mox的笔记库 Arch Linux迁移计划 | Mox的笔记库 Vagrant配置Metarget靶场环境 | Mox的笔记库 OpenAI-whisper折腾 | Mox的笔记库 202202,困惑,混乱与未曾设想之路 | Mox的笔记库 2022年Hack the box:Tier1免费区全解 | Mox的笔记库 Navidrome部署记录 | Mox的笔记库 长安杯2021-snake复现 | Mox的笔记库 报告概要翻译:OBFUSCATING C++ PROGRAMS VIA CONTROL FLOW FLATTENING 从零开始的Django CVE-2022-28346复现 | Mox的笔记库 2022CISCN(西北区赛)-The shinning | Mox的笔记库 Docker+QEMU+Arm64(Ubuntu)+环境配置(2022版) | Mox的笔记库 Arch Linux运行树莓派系统(2022年) | Mox的笔记库 2022CISCN初赛-ez_usb-复盘WriteUp | Mox的笔记库 NodeMCU-MicroPython配置实录 | Mox的笔记库 Django事务使用 | Mox的笔记库 记录第一次EduSRC上报 | Mox的笔记库 Jetbrain问题应急处理 | Mox的笔记库 Celery5.2学习&配置 | Mox的笔记库 Waline部署记录 | Mox的笔记库 2021年12月 Vivo千镜杯回顾 | Mox的笔记库 Frida hook初次实战 | Mox的笔记库 Log4j2漏洞复现 | Mox的笔记库 Windows的WSL2+Docker初探 | Mox的笔记库
Velox开发环境配置踩坑记录 | Mox的笔记库
2024-08-14 · via Mox的笔记库

Velox是Facebook开源的数据库执行引擎,这几天起了兴趣准备试下,中文搜索引擎也没搜出环境配置的教程,于是就写了这篇记录下踩坑情况

环境

WSL2(Docker)

32GB Memory(分配给Docker 24GB)

Ryzen5 4600H(6核12线程,分配给Docker 8个线程)

配置

有了前面LLVM和MLIR的配置经验,那就不多哔哔,直接上Docker

docker pull ghcr.io/facebookincubator/velox-dev:ubuntu-22.04

(”镜像怎么加速“这个问题不属于本篇内容)

拉取完后记得-it/-itd启动镜像,

docker run -itd --name Velox ghcr.io/facebookincubator/velox-dev:ubuntu-22.04 /bin/bash

然后VScode Dev Container进去,就像下面这张图

image-20240813174200292

切换到根目录删除根目录下的/velox,重新Git Clone份最新的(Velox项目每天都有更新,变化很大)

rm /velox

git clone https://github.com/facebookincubator/velox

直接make会报错,需要事先安装pkg-config(如果make报错再安装也不迟)

apt insatll pkg-config

cd /velox

make

大约有1200多项需要编译(内存最高占用到18GB,开8个线程需要编译快1个小时

测试Demo的可执行文件在_build/release/velox/exec/tests/velox_in_10_min_demo

Velox In 10 minutes

https://facebookincubator.github.io/velox/velox-in-10-min.html

如果要新增/修改CPP文件,直接make即可

velox/exec/tests/VeloxIn10MinDemo.cpp中的VeloxIn10MinDemo::run()中可以见到演示代码

在启动演示代码之前,VeloxIn10MinDemo这个类用于初始化,关键字有PrestoSQL,DuckDB,TPC-H,还提供了parseExpressioncompileExpressionmakeTpchSplit等函数:

class VeloxIn10MinDemo : public VectorTestBase {

public:

const std::string kTpchConnectorId = "test-tpch";

VeloxIn10MinDemo() {

// Register Presto scalar functions.

functions::prestosql::registerAllScalarFunctions();

// Register Presto aggregate functions.

aggregate::prestosql::registerAllAggregateFunctions();

// Register type resolver with DuckDB SQL parser.

parse::registerTypeResolver();

// Register TPC-H connector.

auto tpchConnector =

connector::getConnectorFactory(

connector::tpch::TpchConnectorFactory::kTpchConnectorName)

->newConnector(

kTpchConnectorId, std::make_shared<core::MemConfig>());

connector::registerConnector(tpchConnector);

}

~VeloxIn10MinDemo() {

connector::unregisterConnector(kTpchConnectorId);

}

教程写着:虽然Velox不提供SQL Parser,但测试环境提供DuckDB的SQL Parser作为参考

奇怪的是,如果我单独保留vectors章节的代码,程序编译就会报错

TypeResolver.cpp:(.text+0x4d): undefined reference to `facebook::velox::core::Expressions::resolverHook_'

代码运行记录

data->toString(1, 5)输出1到4行,不填输出列属性

std::cout << data->toString(1, 5) << std::endl;

compileExpression函数如下图所示,似乎依赖PrestoSQL?

std::unique_ptr<exec::ExprSet> compileExpression(

const std::string& expr,

const RowTypePtr& rowType) {

std::vector<core::TypedExprPtr> expressions = {

parseExpression(expr, rowType)};

return std::make_unique<exec::ExprSet>(

std::move(expressions), execCtx_.get());

}

auto exprSet = compileExpression("a + b", asRowType(data->type()));

compileExpression函数会生成AST树,而经过evaluate才会转为执行结果

VectorPtr evaluate(exec::ExprSet& exprSet, const RowVectorPtr& input) {

exec::EvalCtx context(execCtx_.get(), &exprSet, input.get());

SelectivityVector rows(input->size());

std::vector<VectorPtr> result(1);

exprSet.eval(rows, context, result);

return result[0];

}

auto c = evaluate(*exprSet, data);

auto abc = makeRowVector({"a", "b", "c"}, {a, b, c});

std::cout << std::endl << "> a, b, a + b: " << abc->toString() << std::endl;

std::cout << abc->toString(0, c->size()) << std::endl;

有了PlanBuilder()就可以实现AggregationsSortingFilteringJoins这些操作,甚至支持与TPC-H的Connector(“TPC-H connector generates TPC-H tables on the fly”)

plan = PlanBuilder()

.tpchTableScan(

tpch::Table::TBL_NATION,

{"n_nationkey", "n_name"},

1 /*scaleFactor*/)

.planNode();

auto nations = AssertQueryBuilder(plan).split(makeTpchSplit()).copyResults(pool());

std::cout << std::endl

<< "> first 10 rows from TPC-H nation table: "

<< nations->toString() << std::endl;

std::cout << nations->toString(0, 10) << std::endl;

结语

感觉Velox in 10 minutes更多的是提起人们对Velox的兴趣,而非展示Velox的执行细节(这部分内容需要Debug去寻找)