惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

GbyAI
GbyAI
博客园_首页
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
阮一峰的网络日志
阮一峰的网络日志
酷 壳 – CoolShell
酷 壳 – CoolShell
博客园 - 司徒正美
V
V2EX
Cloudbric
Cloudbric
Hugging Face - Blog
Hugging Face - Blog
腾讯CDC
量子位
博客园 - 三生石上(FineUI控件)
博客园 - 叶小钗
K
Kaspersky official blog
博客园 - 【当耐特】
T
Tenable Blog
L
Lohrmann on Cybersecurity
The Cloudflare Blog
S
Schneier on Security
A
Arctic Wolf
Latest news
Latest news
C
Cyber Attacks, Cyber Crime and Cyber Security
罗磊的独立博客
T
The Exploit Database - CXSecurity.com
Cisco Talos Blog
Cisco Talos Blog
小众软件
小众软件
P
Privacy & Cybersecurity Law Blog
WordPress大学
WordPress大学
Simon Willison's Weblog
Simon Willison's Weblog
雷峰网
雷峰网
NISL@THU
NISL@THU
人人都是产品经理
人人都是产品经理
月光博客
月光博客
J
Java Code Geeks
V
Visual Studio Blog
S
Security Affairs
博客园 - Franky
T
Tailwind CSS Blog
Apple Machine Learning Research
Apple Machine Learning Research
H
Heimdal Security Blog
有赞技术团队
有赞技术团队
V2EX - 技术
V2EX - 技术
AWS News Blog
AWS News Blog
G
GRAHAM CLULEY
T
Troy Hunt's Blog
SecWiki News
SecWiki News
Spread Privacy
Spread Privacy
宝玉的分享
宝玉的分享
www.infosecurity-magazine.com
www.infosecurity-magazine.com
博客园 - 聂微东

博客园 - tooli

在超大数据集下 DuckDB 与 MySQL 查询速度对比 ChatGPT有多强?真的能替代程序员?一起来看看! 在windwos创建的脚本文件在linux环境中无法执行的问题 PHP + Redis 实现定时任务触发 测试PHP几种方法写入文件的效率与安全性 简析小黑是如何盗取cookie登录用户账号 一个'&'引起md5签名不一致问题 linux学习:curl与netcat用法整理 swoole+websocket+redis实现一对一聊天 使用COOKIE实现登录 VS 使用SESSION实现登录 巧用PHP中__get()魔术方法 用户表分表原理 linux学习:用户管理 linux学习:网络(防火墙)及系统安全相关命令学习 MySQL语句技巧 实习那些事儿 shell 环境下MySQL的基本操作指令总结 linux学习:归档,备份及进程相关命令用法整理 Docker简介以及使用docker搭建lnmp的过程(多PHP版本)
没有技术要求,只需5步就能完成数据分析和图表制作,DuckDB可将数据分析门槛铲平。
tooli · 2026-03-31 · via 博客园 - tooli

本文介绍如何在本地使用DuckDB进行数据集的分析。零门槛完成数据分析。实践过程以菜鸟级别的步骤拆解,帮助非技术用户快速上手。

整个过程只需5步,每个操作步骤都没有技术要求,只要按照步骤进行即可。

非常适合无编程基础的用户,借助AI完成超大数据集的探索分析过程。当然同样适合有编程基础的技术人员,技术人员可借助DuckDB,翻倍提高效率。

查询每个省份上市企业数量。并使用中国地图展示数据。(数据截至2023-04-21)

 step1:打开工具

直接打开即可:https://tooli.fun/duckdb_shell

image

step2:导入数据,并确认数据结构

输入命令并回车: .files add

在弹出的文件选择框选择要导入的数据集(csv文件或者parquet文件等)。

查看导入结果: .files list

查看文件头3行:

select * from 'tmp_dim_company_simple.csv' limit 3;

image

step3:生成SQL,查询数据

随意组装下提示词:

你是一个高级数据分析师,精通各种类型数据库的SQL语法,特别是DuckDB的SQL语法。你将会得到一份数据集的前3行数据,你需要根据数据头和数据内容去理解数据结构,同时需要根据上级的需求,生成一条DuckDB的SQL语句来从该数据集查询数据。

    ## 以下是各个数据集的结构说明
    ### 数据集1:
    文件名称:tmp_dim_company_simple.csv
    前3行数据:
duckdb> select * from tmp_dim_company_simple.csv limit 3;
┌───────────┬─────────┬───────────┬─────────────────────┬─────────┬─────────┐
│ column0   ┆ column1 ┆ column2   ┆ column3             ┆ column4 ┆ column5 │
╞═══════════╪═════════╪═══════════╪═════════════════════╪═════════╪═════════╡
│ 000001.SZ ┆ SZSE    ┆ 1940590.0 ┆ 1987-12-22T00:00:00 ┆ 广东      ┆ 深圳市     │
│ 000002.SZ ┆ SZSE    ┆ 1162540.0 ┆ 1984-05-30T00:00:00 ┆ 广东      ┆ 深圳市     │
│ 000003.SZ ┆ SZSE    ┆   40012.0 ┆ 1988-03-10T00:00:00 ┆ 广东      ┆ 深圳市     │
└───────────┴─────────┴───────────┴─────────────────────┴─────────┴─────────┘
    上级的需求:查询各个省份的上市公司数量

image

生成的SQL:


SELECT 
    column4 AS province, 
    COUNT(*) AS company_count
FROM 'tmp_dim_company_simple.csv'
GROUP BY column4
ORDER BY company_count DESC;

执行SQL:

image

但此时数据仅仅是文本显示,我们需要将查询结果进行格式化并导出。于是需要调整下生成的SQL;

step4:优化SQL并导出数据

image

得到调整后的SQL:


COPY (
  SELECT 
      column4 AS province, 
      COUNT(*) AS company_count
  FROM 'tmp_dim_company_simple.csv'
  GROUP BY column4
  ORDER BY company_count DESC
) TO 'output/company_count_by_province.csv' (HEADER, DELIMITER ',');

执行SQL,查看导出结果并下载文件。

image

step5:整理并绘制数据图表

打开工具:中国地图数据投影

image

下载图标示例数据,根据图表数据格式要求,将下载的数据集合的头部无效数据去掉。并将“香港特别行政区”改为“香港”。 保存文件。最终数据格式:

广东,844
浙江,664
江苏,630
北京,460
上海,430
山东,283
四川,176
福建,175
安徽,160
湖北,143
湖南,142
河南,104
辽宁,99
陕西,76
河北,73
江西,70
天津,70
重庆,65
新疆,64
吉林,55
黑龙江,47
云南,43
山西,40
广西,40
甘肃,38
海南,36
贵州,34
内蒙古,29
西藏,22
宁夏,15
青海,12
None,5
香港,2

选择company_count_by_province.csv文件,并点击渲染按钮。
查看数据图表,同时可选择是否展示标签。可以复制链接进行分享。

image

结果链接,可点击查看

[更多精彩内容]

在超大数据集下, DuckDB 与 MySQL 查询速度对比

已落地实操,使用 Doris 4.0 的AI函数进行游戏玩家聊天数据挖掘和探索

字节跳动如何利用 Doris 4.0 解决十亿级向量搜索难题

百行代码带你快速构建Text2SQL工具

31 款开源BI可视化工具,你用过几款?

使用Doris「部分列更新机制」实现大宽表的近实时拼接

ChatBI和智能数据分析的现状与我在这方面的实践

已在实际项目落地,用Doris+Kafka+Metabase搭建实时BI报表的极简架构数仓

使用位运算方式计算用户留存数据

基于Dify构建智能数据分析应用

使用卡方检验工具比较两组样本成功率差异

AB测试样本量计算

数学模型可视化,3D函数图像绘图工具

喜欢可关注小编:

official_wx