惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

博客园 - 聂微东
C
CXSECURITY Database RSS Feed - CXSecurity.com
H
Help Net Security
P
Proofpoint News Feed
V
Visual Studio Blog
WordPress大学
WordPress大学
Recent Announcements
Recent Announcements
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
T
Tailwind CSS Blog
Hugging Face - Blog
Hugging Face - Blog
GbyAI
GbyAI
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
MyScale Blog
MyScale Blog
美团技术团队
Stack Overflow Blog
Stack Overflow Blog
Recorded Future
Recorded Future
Blog — PlanetScale
Blog — PlanetScale
宝玉的分享
宝玉的分享
H
Hackread – Cybersecurity News, Data Breaches, AI and More
I
InfoQ
Microsoft Security Blog
Microsoft Security Blog
The Register - Security
The Register - Security
Y
Y Combinator Blog
Last Week in AI
Last Week in AI
F
Full Disclosure
Jina AI
Jina AI
博客园 - 司徒正美
小众软件
小众软件
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
S
SegmentFault 最新的问题
量子位
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
U
Unit 42
Vercel News
Vercel News
L
LangChain Blog
云风的 BLOG
云风的 BLOG
The GitHub Blog
The GitHub Blog
B
Blog RSS Feed
有赞技术团队
有赞技术团队
腾讯CDC
Martin Fowler
Martin Fowler
博客园 - 叶小钗
博客园 - 三生石上(FineUI控件)
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
D
DataBreaches.Net
Engineering at Meta
Engineering at Meta
F
Fortinet All Blogs
M
MIT News - Artificial intelligence

博客园 - 小潘

hbase master 无法启动 hbase 集群写入能力优化-预分区、TTL的应用 TiSpark 初级应用 ETL-kettle 核心执行逻辑 HBase 写入优化 HBase ttl 验证 大数据多维分析平台的实践 TiDB在特来电的探索 Druid 基础使用-操作篇(Pivot、plyql) Druid 基础使用-操作篇(Imply ) Druid安装-单机 phoenix 索引修复-基本流程 Phoenix -修复表索引 oracle sql跟踪及‘相关问题 数据交换平台 reportview 实践学习 linq 排序 学习一 开始学习LINQ
GreenPlum tidb 性能比较
小潘 · 2019-12-15 · via 博客园 - 小潘

主要的需求

   针对大体量表的OLAP统计查询,需要找到一个稳定,高性能的大数据数据库,具体使用

  •     数据可以实时的写入和查询,并发的tps不是很高
  • 建立数据仓库,模式上主要采用星星模型、雪花模型,或者宽表
  • 前端展示 分为3类  saiku、granafa、c#代码开发
  • 数据体量:事实表在3-5亿、维度表大的在500万左右
  • 数据集成:可以和现在使用的kettle进行无缝集成

基于以上需求,前期使用tidb,但是在大体量表的olap查询性能不是很好,使用tipark 离线计算还可,但是时间上无法满足系统需求,初步了解到mpp架构的greenplum。因此先期进行了简单比较

基础测试数据表说明  

  数据表  

       订单宽表,数据表字段为300个左右

  基本的测试结果 --不包含并发测试

    集群基本配置 :

      Greenplum  4台8核56G,9个segments  表:列存,无索引

       tidb :6台8核56G,ssd

tpc-ds 

     

 tpc-h

   

其余测试 --

 

 

 小结

  •   针对OLAP的查询,greenplum 的分析统计性能要优于tidb
  • 在greenplum不使用索引的情况下,点差要比tidb 差不少,增加对应的索引之后,性能差不多,但是greenplum 不建议使用索引
  • greenplum在列存的场景下,查询的列的个数对性能影响较大。

 下一步验证

   1.星星模型 下的性能,考虑事实表 3亿,维度表 500万,

   2.3亿的订单数据是否需要使用分区表

   3.报表导出场景是否可以使用gp

   4. sqlserver的存储过程是否可以迁移到greenplum