惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

博客园 - 聂微东
C
CXSECURITY Database RSS Feed - CXSecurity.com
H
Help Net Security
P
Proofpoint News Feed
V
Visual Studio Blog
WordPress大学
WordPress大学
Recent Announcements
Recent Announcements
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
T
Tailwind CSS Blog
Hugging Face - Blog
Hugging Face - Blog
GbyAI
GbyAI
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
MyScale Blog
MyScale Blog
美团技术团队
Stack Overflow Blog
Stack Overflow Blog
Recorded Future
Recorded Future
Blog — PlanetScale
Blog — PlanetScale
宝玉的分享
宝玉的分享
H
Hackread – Cybersecurity News, Data Breaches, AI and More
I
InfoQ
Microsoft Security Blog
Microsoft Security Blog
The Register - Security
The Register - Security
Y
Y Combinator Blog
Last Week in AI
Last Week in AI
F
Full Disclosure
Jina AI
Jina AI
博客园 - 司徒正美
小众软件
小众软件
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
S
SegmentFault 最新的问题
量子位
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
U
Unit 42
Vercel News
Vercel News
L
LangChain Blog
云风的 BLOG
云风的 BLOG
The GitHub Blog
The GitHub Blog
B
Blog RSS Feed
有赞技术团队
有赞技术团队
腾讯CDC
Martin Fowler
Martin Fowler
博客园 - 叶小钗
博客园 - 三生石上(FineUI控件)
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
D
DataBreaches.Net
Engineering at Meta
Engineering at Meta
F
Fortinet All Blogs
M
MIT News - Artificial intelligence

博客园 - 小潘

GreenPlum tidb 性能比较 hbase master 无法启动 hbase 集群写入能力优化-预分区、TTL的应用 ETL-kettle 核心执行逻辑 HBase 写入优化 HBase ttl 验证 大数据多维分析平台的实践 TiDB在特来电的探索 Druid 基础使用-操作篇(Pivot、plyql) Druid 基础使用-操作篇(Imply ) Druid安装-单机 phoenix 索引修复-基本流程 Phoenix -修复表索引 oracle sql跟踪及‘相关问题 数据交换平台 reportview 实践学习 linq 排序 学习一 开始学习LINQ
TiSpark 初级应用
小潘 · 2019-08-22 · via 博客园 - 小潘

目前正在使用tispark 进行离线计算,简单记录一下操作过程

一、技术验证

  1. 场景:计算每次充电过程中单体最高电压的变化速率

 解决方案:

        使用tispark 直接访问tidb的数据,采用spark的lag函数计算

      SELECT billid,MAX(Diff) AS MaxHVDiff,MIN(Diff) AS MinHVDiff,
      '20190801' AS bizdate FROM (SELECT upttime,billid,HighestVoltage , (HighestVoltage -lag(HighestVoltage ) over (PARTITION BY billid ORDER BY upttime)) AS Diff FROM ETL_SingleCharging 

    计算资源   : 

       /home/teld/tispark/spark-2.3.3-bin-hadoop2.7/bin/spark-shell --master=spark://***:7077 --executor-memory 32G  48核

             计算结果:                     

  参与计算的数据量: 451105735 –4.5亿
  结果数据:6463684 –646万
  时间:16分钟

    监控资源
        

     

     2. 相同的场景,将资源占用控制在 24G,36核心。 观察tispark 内存压力下降 --说明 tispark的资源占用可控

   /home/teld/tispark/spark-2.3.3-bin-hadoop2.7/bin/spark-shell --master=spark://***:7077 --executor-memory 24G --total-executor-cores 36

二、生产部署

  场景:生产环境需要计算每分钟的每个订单的充电的soc、温度、单体最高电压的变化速率,因此分析查找出异常的订单数据

   生产解决方案:

     2.1 整体思路:

              通过计算平台的HUE上扩展TIspark的插件,实现tispark的相关操作,由于涉及到相关的临时表操作,因此在HUE的数据流里面还涉及到清楚临时表,导入数据到sqlserver等操作,因此还涉及kettle操作

    2.2 实现方案:

             1.数据流定义:

                   1.定义HUE数据流任务

                         

             tispark sql  --临时用shell 插件,扩张的hue上的tispark的插件正在开发

               

         2.执行监控

                 每个sparksql 执行时间为2分钟

三 下一步规划

     3.1 下一步逐步增加更深入的离线任务

     3.2 tispark 的hue 更易用性的插件开发,并返回给社区

     3.3 继续增加tidb的 oltp业务观察 tp和ap业务的 关系和对资源的占用冲突情况