count的性能优化 - 惯性聚合

推荐订阅源

cs.AI updates on arXiv.org

Know Your Adversary

Cyber Attacks, Cyber Crime and Cyber Security

Darknet – Hacking Tools, Hacker News & Cyber Security

CXSECURITY Database RSS Feed - CXSecurity.com

Schneier on Security

Vulnerabilities – Threatpost

Google Online Security Blog

Lohrmann on Cybersecurity

Recent Commits to openclaw:main

LINUX DO - 热门话题

Secure Thoughts

The Exploit Database - CXSecurity.com

博客园 - 【当耐特】

Recent Announcements

Security Archives - TechRepublic

Stack Overflow Blog

罗磊的独立博客

OSCHINA 社区最新新闻

Kaspersky official blog

阮一峰的网络日志

博客园_首页

Full Disclosure

大猫的无限游戏

博客园 - 叶小钗

Last Week in AI

Security Affairs

Apple Machine Learning Research

Netflix TechBlog - Medium

Security Latest

Y Combinator Blog

Troy Hunt's Blog

Hacker News - Newest: "LLM"

郑文峰的博客

使用dify对接飞书多维表格使用n8n对接飞书多维表格服务启动时出现 OOM 一次服务升级时pg表DDL执行超时失败 Go语言高效IO缓冲技术详解 Go语言延迟初始化(Lazy Initialization)最佳实践 Go语言字符串拼接性能对比与优化指南 Go语言结构体内存对齐完全指南 Go语言空结构体：零内存消耗的高效编程 Go语言堆栈分配与逃逸分析深度解析 Go语言原子操作完全指南 Go语言内存预分配完全指南 Go语言不可变数据共享：无锁并发编程实践 Go语言零拷贝技术完全指南 Go语言遍历性能深度解析：从原理到优化实践 Go语言Interface Boxing原理与性能优化指南 Go协程池深度解析：原理、实现与最佳实践使用etcd分布式锁导致的协程泄露与死锁问题基于pre-commit的Python代码规范落地实践初识 MCP Server pulsar阻塞导致logstash无法接入日志 django-prometheus使用及源码分析 kube-proxy源码分析 kubernetes service如何通过iptables转发 tcp缓存引起的日志丢失 django-apschedule定时任务异常停止理解calico容器网络通信方案原理理解flannel的三种容器网络方案原理理解Linux IPIP隧道理解VXLAN网络理解Linux TunTap设备快速了解iptables kafka中listener和advertised.listeners的作用 django rest_framework 分页 django后端服务、logstash和flink接入VictoriaMetrics指标监控 python中import原理 docker容器单机网络手动实现docker容器bridge网络模型 mysql之MVCC原理 mysql之日志使用java开发logstash的filter插件使用python实现单例模式的三种方式 redis之缓存 redis之分片集群 redis之哨兵机制 redis之主从库同步 redis之持久化 redis之五种基本数据类型 go中如何处理error pod中将代码与运行环境分离 ddt源码分析 python装饰器的使用方法读书笔记:如何阅读一本书使用ddt实现unittest的参数化测试使用kubeadm安装k8s 优化gin表单的错误提示信息 gin中validator模块的源码分析 go简单使用grpc python简单使用grpc k8s之PV、PVC和StorageClass k8s之StatefulSet k8s之DaemonSet k8s之Job和CronJob k8s之ConfigMap和Secret k8s之Service k8s之Pod k8s之Deployment 容器的本质 docker容器 python迭代器与生成器 python元编程 python垃圾回收机制 python上下文管理器 django rest_framework使用jwt django rest_framework异常处理 django rest_framework 自定义文档 django压缩文件下载 django rest_framework使用pytest单元测试 django restframework choice 自定义输出数据 django Filtering 使用 django viewset 和 Router 配合使用时报的错 django model的序列化 django中使用AbStractUser django.core.exceptions.ImproperlyConfigured Application labels aren't unique, duplicates users django 中 media配置 django 外键引用自身和on_delete参数 django 警告 while time zone support is active Flask使用flask_socketio实现websocket flask结合mongo tornado 文件上传 tornado 使用jwt完成用户异步认证 tornado 用户密码 bcrypt加密 tornado 结合wtforms使用表单操作 tornado finish和write区别 tornado 使用peewee-async 完成异步orm数据库操作 pyspark streaming简介和消费 kafka示例使用hue创建ozzie的pyspark action workflow django rest_framework Authentication django celery 结合使用网站

count的性能优化

zhengwenfeng · 2022-08-10 · via 郑文峰的博客

# 问题

今天测试给我提了BUG，发现某个查询接口超时了，超时时间为1分钟。

目前的用的数据库是clickhouse，数据量大概在20亿左右

# 定位问题

我通过调试将查询数据的语句打印出来，查询语句放在数据库中执行，发现几秒就查询完成了，这个时候我就奇了怪了，后面我再仔细看接口的代码，跟踪调试后发现，除了会查询数据之外，还会执行查询数据量的语句。

我将查询数量的语句打印出来，执行该语句，发现是超过1分钟的，看来是定位到问题了。

# 查询分析

语句大概是下面这样的，大概有30多张表，也就是需要union30多张表

select
    count(*)
from
    (
        select
            a_field,
            b_field,
            c_field,
            d_field,
            e_field,
            f_field
        from
            A
        union
        all
        select
            a_field,
            b_field,
            c_field,
            d_field,
            e_field,
            f_field
        from
            B
    )

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

这条语句是通过将多个表union成一个大表，然后再count求数量。

问题显而易见，为啥我们要构造一张这么大的表在内存中再count数量，直接count每张表的数量再相加不就是了。优化语句如下：

select
    count(cnt)
from
    (
        select
            count() as cnt
        from
            A
        union
        all
        select
            count() as cnt
        from
            B
    )

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

将该语句放在数据库查询，秒级返回，直接从1分钟优化到1秒钟

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。