惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

T
Troy Hunt's Blog
GbyAI
GbyAI
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
月光博客
月光博客
Engineering at Meta
Engineering at Meta
The Register - Security
The Register - Security
阮一峰的网络日志
阮一峰的网络日志
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
F
Fortinet All Blogs
博客园 - 司徒正美
博客园 - 聂微东
T
Tailwind CSS Blog
MyScale Blog
MyScale Blog
Microsoft Security Blog
Microsoft Security Blog
Jina AI
Jina AI
A
About on SuperTechFans
Y
Y Combinator Blog
N
Netflix TechBlog - Medium
V
V2EX
I
InfoQ
WordPress大学
WordPress大学
小众软件
小众软件
The Cloudflare Blog
Recent Announcements
Recent Announcements
U
Unit 42
The Last Watchdog
The Last Watchdog
P
Palo Alto Networks Blog
Vercel News
Vercel News
罗磊的独立博客
H
Hackread – Cybersecurity News, Data Breaches, AI and More
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
M
MIT News - Artificial intelligence
Project Zero
Project Zero
美团技术团队
L
LangChain Blog
S
Security @ Cisco Blogs
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
Last Week in AI
Last Week in AI
W
WeLiveSecurity
S
Securelist
H
Hacker News: Front Page
K
Kaspersky official blog
Martin Fowler
Martin Fowler
Know Your Adversary
Know Your Adversary
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
J
Java Code Geeks
P
Proofpoint News Feed
有赞技术团队
有赞技术团队
Google Online Security Blog
Google Online Security Blog
D
DataBreaches.Net

博客园 - tooli

在超大数据集下 DuckDB 与 MySQL 查询速度对比 ChatGPT有多强?真的能替代程序员?一起来看看! 在windwos创建的脚本文件在linux环境中无法执行的问题 PHP + Redis 实现定时任务触发 测试PHP几种方法写入文件的效率与安全性 简析小黑是如何盗取cookie登录用户账号 一个'&'引起md5签名不一致问题 linux学习:curl与netcat用法整理 swoole+websocket+redis实现一对一聊天 使用COOKIE实现登录 VS 使用SESSION实现登录 巧用PHP中__get()魔术方法 用户表分表原理 linux学习:用户管理 linux学习:网络(防火墙)及系统安全相关命令学习 MySQL语句技巧 实习那些事儿 shell 环境下MySQL的基本操作指令总结 linux学习:归档,备份及进程相关命令用法整理 Docker简介以及使用docker搭建lnmp的过程(多PHP版本)
没有技术要求,只需5步就能完成数据分析和图表制作,DuckDB可将数据分析门槛铲平。
tooli · 2026-03-31 · via 博客园 - tooli

本文介绍如何在本地使用DuckDB进行数据集的分析。零门槛完成数据分析。实践过程以菜鸟级别的步骤拆解,帮助非技术用户快速上手。

整个过程只需5步,每个操作步骤都没有技术要求,只要按照步骤进行即可。

非常适合无编程基础的用户,借助AI完成超大数据集的探索分析过程。当然同样适合有编程基础的技术人员,技术人员可借助DuckDB,翻倍提高效率。

查询每个省份上市企业数量。并使用中国地图展示数据。(数据截至2023-04-21)

 step1:打开工具

直接打开即可:https://tooli.fun/duckdb_shell

image

step2:导入数据,并确认数据结构

输入命令并回车: .files add

在弹出的文件选择框选择要导入的数据集(csv文件或者parquet文件等)。

查看导入结果: .files list

查看文件头3行:

select * from 'tmp_dim_company_simple.csv' limit 3;

image

step3:生成SQL,查询数据

随意组装下提示词:

你是一个高级数据分析师,精通各种类型数据库的SQL语法,特别是DuckDB的SQL语法。你将会得到一份数据集的前3行数据,你需要根据数据头和数据内容去理解数据结构,同时需要根据上级的需求,生成一条DuckDB的SQL语句来从该数据集查询数据。

    ## 以下是各个数据集的结构说明
    ### 数据集1:
    文件名称:tmp_dim_company_simple.csv
    前3行数据:
duckdb> select * from tmp_dim_company_simple.csv limit 3;
┌───────────┬─────────┬───────────┬─────────────────────┬─────────┬─────────┐
│ column0   ┆ column1 ┆ column2   ┆ column3             ┆ column4 ┆ column5 │
╞═══════════╪═════════╪═══════════╪═════════════════════╪═════════╪═════════╡
│ 000001.SZ ┆ SZSE    ┆ 1940590.0 ┆ 1987-12-22T00:00:00 ┆ 广东      ┆ 深圳市     │
│ 000002.SZ ┆ SZSE    ┆ 1162540.0 ┆ 1984-05-30T00:00:00 ┆ 广东      ┆ 深圳市     │
│ 000003.SZ ┆ SZSE    ┆   40012.0 ┆ 1988-03-10T00:00:00 ┆ 广东      ┆ 深圳市     │
└───────────┴─────────┴───────────┴─────────────────────┴─────────┴─────────┘
    上级的需求:查询各个省份的上市公司数量

image

生成的SQL:


SELECT 
    column4 AS province, 
    COUNT(*) AS company_count
FROM 'tmp_dim_company_simple.csv'
GROUP BY column4
ORDER BY company_count DESC;

执行SQL:

image

但此时数据仅仅是文本显示,我们需要将查询结果进行格式化并导出。于是需要调整下生成的SQL;

step4:优化SQL并导出数据

image

得到调整后的SQL:


COPY (
  SELECT 
      column4 AS province, 
      COUNT(*) AS company_count
  FROM 'tmp_dim_company_simple.csv'
  GROUP BY column4
  ORDER BY company_count DESC
) TO 'output/company_count_by_province.csv' (HEADER, DELIMITER ',');

执行SQL,查看导出结果并下载文件。

image

step5:整理并绘制数据图表

打开工具:中国地图数据投影

image

下载图标示例数据,根据图表数据格式要求,将下载的数据集合的头部无效数据去掉。并将“香港特别行政区”改为“香港”。 保存文件。最终数据格式:

广东,844
浙江,664
江苏,630
北京,460
上海,430
山东,283
四川,176
福建,175
安徽,160
湖北,143
湖南,142
河南,104
辽宁,99
陕西,76
河北,73
江西,70
天津,70
重庆,65
新疆,64
吉林,55
黑龙江,47
云南,43
山西,40
广西,40
甘肃,38
海南,36
贵州,34
内蒙古,29
西藏,22
宁夏,15
青海,12
None,5
香港,2

选择company_count_by_province.csv文件,并点击渲染按钮。
查看数据图表,同时可选择是否展示标签。可以复制链接进行分享。

image

结果链接,可点击查看

[更多精彩内容]

在超大数据集下, DuckDB 与 MySQL 查询速度对比

已落地实操,使用 Doris 4.0 的AI函数进行游戏玩家聊天数据挖掘和探索

字节跳动如何利用 Doris 4.0 解决十亿级向量搜索难题

百行代码带你快速构建Text2SQL工具

31 款开源BI可视化工具,你用过几款?

使用Doris「部分列更新机制」实现大宽表的近实时拼接

ChatBI和智能数据分析的现状与我在这方面的实践

已在实际项目落地,用Doris+Kafka+Metabase搭建实时BI报表的极简架构数仓

使用位运算方式计算用户留存数据

基于Dify构建智能数据分析应用

使用卡方检验工具比较两组样本成功率差异

AB测试样本量计算

数学模型可视化,3D函数图像绘图工具

喜欢可关注小编:

official_wx