惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

酷 壳 – CoolShell
酷 壳 – CoolShell
H
Hacker News: Front Page
P
Palo Alto Networks Blog
T
ThreatConnect
Apple Machine Learning Research
Apple Machine Learning Research
博客园_首页
T
True Tiger Recordings
P
Privacy & Cybersecurity Law Blog
B
Blog
IT之家
IT之家
Last Week in AI
Last Week in AI
F
Full Disclosure
Hacker News: Ask HN
Hacker News: Ask HN
C
Comments on: Blog
Microsoft Azure Blog
Microsoft Azure Blog
C
Cybersecurity and Infrastructure Security Agency CISA
Microsoft Security Blog
Microsoft Security Blog
博客园 - 【当耐特】
N
News and Events Feed by Topic
NISL@THU
NISL@THU
腾讯CDC
雷峰网
雷峰网
Security Latest
Security Latest
李成银的技术随笔
M
Microsoft Research Blog - Microsoft Research
L
LangChain Blog
L
Lohrmann on Cybersecurity
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
C
Check Point Blog
Y
Y Combinator Blog
Recent Announcements
Recent Announcements
博客园 - Franky
N
News | PayPal Newsroom
V
V2EX
A
About on SuperTechFans
The Register - Security
The Register - Security
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google Online Security Blog
Google Online Security Blog
MyScale Blog
MyScale Blog
Cisco Talos Blog
Cisco Talos Blog
Vercel News
Vercel News
WordPress大学
WordPress大学
C
Cyber Attacks, Cyber Crime and Cyber Security
The Hacker News
The Hacker News
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
爱范儿
爱范儿
A
Arctic Wolf
L
LINUX DO - 最新话题
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More

博客园 - MOBIN

播面--八股文利器:播客形式讲解八股文,文本题库永久免费! Docker部署Apollo配置中心 Actor模型原理 java并发编程--Runnable Callable及Future Spark Accumulators Spark Yarn-cluster与Yarn-client Hive集成HBase详解 Hive MapJoin Hive2.0函数大全(中文版) 深度剖析JDK动态代理机制 HBase二级索引的设计 通过BulkLoad的方式快速导入海量数据 java并发编程--Executor框架 Spark常用函数讲解之Action操作 Java并发编程--Volatile详解 Spark常用函数讲解之键值RDD转换 图解堆排序 Spark函数详解系列之RDD基本转换 深入理解Scala的隐式转换
Phoenix二级索引(Secondary Indexing)的使用
MOBIN · 2016-05-06 · via 博客园 - MOBIN

摘要

HBase只提供了一个基于字典排序的主键索引,在查询中你只能通过行键查询或扫描全表来获取数据,使用Phoenix提供的二级索引,可以避免在查询数据时全表扫描,提高查过性能,提升查询效率

测试环境:

数据约370万

三节点集群(一主两从,hadoop和HBase属同一集群)

目录

  • Covered Indexes(覆盖索引)
  • Functional indexes(函数索引)
  • Global indexes(全局索引)
  • Local indexes(本地索引)

索引类型

Covered Indexes(覆盖索引)

覆盖索引:只需要通过索引就能返回所要查询的数据,所以索引的列必须包含所需查询的列(SELECT的列和WHRER的列)

不带索引的查询:

查询USERID= 9bb8b2af925864bb275b840c578df3c3的KEYWORD和URL

EXPLAIN(语句的执行逻辑及计划):

(由图看知先进行了全表扫描再通过过滤器来筛选出目标数据,显示这种查询方式效率是很低的)

查询时间:(平均在38s~41s)

带索引:

(创建基于USERID的覆盖索引并绑定KEYWORD列上的数据)

CREATE INDEX COVERINDEX ON CSVTANLES(USERID) INCLUDE(KEYWORD)

当你要通过UERID来查询KEYWORD时就直接可以从索引上取回数据而无需先得到索引再去数据表中查询数据

查询语句:

SECECT KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3'

EXPLAIN:

(使用了COVERINDEX索引使用SCAN在索引区间内查询)

查询用时(平均在49ms~70ms):

注意:SELECT所带的字段必须包含在覆盖索引内

Functional indexes(函数索引)

从Phoeinx4.3以上就支持函数索引,其索引不局限于列,可以合适任意的表达式来创建索引,当在查询时用到了这些表达式时就直接返回表达式结果

例2:使用UPPER函数创建函数索引使查询出的USERID和URL里字母都是大写的

创建函数索引

CREATE INDEX UPPERINDEX ON CSVTABLES (UPPER(USERID || '  ' || URL))

查询:

Global indexes(全局索引)

全局索引适用于多读少写的场景,在写操作上会给性能带来极大的开销,因为所有的更新和写操作(DELETE,UPSERT VALUES和UPSERT SELECT)都会引起索引的更新,在读数据时,Phoenix将通过索引表来达到快速查询的目的。

在用使用全局索引之前需要在每个RegionServer上的hbase-site.xml添加如下属性:

<property>
   <name>hbase.regionserver.wal.codec</name>
   <value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
</property>

在USERID字段上创建索引

CREATE INDEX USERIDINDEX ON CSVTABLES(USERID);

以下查询会用到索引

SELECT USERID FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3';

SELECT USERID,ROWKEY CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3';

以下查询不会用到索引

查询语句1.

SELECT USERID,KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3'

(虽然USERID是索引字段,但KEYWORD不是索引字段,所以不会使用到索引)

查询语句2.

SELECT KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3'

(同理,KEYWORD不是索引字段)

使用以下三种方式,执行查询语句2时也将用到索引.

1.创建包含字段KEYWORD的覆盖索引

CREATE INDEX MYINDEX ON CSVTABLE(USERID) INCLUDE(KEYWORD);

2.强制使用索引

SELECT /*+ INDEX(CSVTABLES,MYINDEX) */ KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3';

如果KEYWORD是索引字段,那么就会直接从索引表中查询

如果KEYWORD不是索引字段,那么将会进行全表扫描,所以当用户明确知道表中数据较少且符合检索条件时才适用,此时的性能才是最佳的。

3.使用本地索引

CREATE LOCAL INDEX MYINDEX ON CSVTABLES(KEYWORD);

Local indexes(本地索引)

本地索引适用于写多读少,空间有限的场景,和全局索引一样,Phoneix在查询时会自动选择是否使用本地索引,使用本地索引,为避免进行写操作所带来的网络开销,索引数据和表数据都存放在相同的服务器中,当查询的字段不完全是索引字段时本地索引也会被使用,与全局索引不同的是,所有的本地索引都单独存储在同一张共享表中,由于无法预先确定region的位置,所以在读取数据时会检查每个region上的数据因而带来一定性能开销。

在使用本地索引需要在Master的hbase-site.xml添加以下属性

<property>
   <name>hbase.master.loadbalancer.class</name>
   <value>org.apache.phoenix.hbase.index.balancer.IndexLoadBalancer</value>
</property>
<property>
   <name>hbase.coprocessor.master.classes</name>
   <value>org.apache.phoenix.hbase.index.master.IndexMasterObserver</value>
</property>

Phoeinx4.3以上为支持在数据region合并时本地索引region也能进行合并需要在每个region servers中添加以下属性

<property>
   <name>hbase.coprocessor.regionserver.classes</name>
   <value>org.apache.hadoop.hbase.regionserver.LocalIndexMerger</value>
</property>

创建本地索引

CREATE LOCAL INDEX MYINDEX ON CSVTABLES(USERID);

查询

CREATE LOCAL INDEX MYINDEX ON CSVTABLES(USERID);

整个查询只花了0.19s

删除索引

CREATE LOCAL INDEX MYINDEX ON CSVTABLES(KEYWORD);

如果表中的一个索引列被删除,则索引也将被自动删除,如果删除的是

覆盖索引上的列,则此列将从覆盖索引中被自动删除。

索引的优化

以下属性都必须在各节点上的hbase-site.xml中设置为true才能起效,

1.index.builder.threads.max:(默认值:10)

    根据主表的更新来确定更新索引表的线程数

2.index.builder.threads.keepalivetime:(默认值:60)

    builder线程池中线程的存活时间

3.index.write.threads.max:(默认值:10)

    更新索引表时所能使用的线程数(即同时能更新多少张索引表),其数量最好与索引表的数量一致

4.index.write.threads.keepalivetime(默认值:60)

     更新索引表的线程所能存活的时间

5.hbase.htable.threads.max(默认值:2147483647)

     每张索引表所能使用的线程(即在一张索引表中同时可以有多少线程对其进行写入更新),增加此值可以提高更新索引的并发量

6.hbase.htable.threads.keepalivetime(默认值:60)

     索引表上更新索引的线程的存活时间

7.index.tablefactoy.cache.size(默认值:10)

     允许缓存的索引表的数量

     增加此值,可以在更新索引表时不用每次都去重复的创建htable,由于是缓存在内存中,所以其值越大,其需要的内存越多