惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

S
Security Archives - TechRepublic
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Microsoft Azure Blog
Microsoft Azure Blog
V
Visual Studio Blog
美团技术团队
GbyAI
GbyAI
The Cloudflare Blog
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
N
Netflix TechBlog - Medium
Jina AI
Jina AI
G
Google Developers Blog
H
Help Net Security
Blog — PlanetScale
Blog — PlanetScale
有赞技术团队
有赞技术团队
Martin Fowler
Martin Fowler
J
Java Code Geeks
F
Fortinet All Blogs
云风的 BLOG
云风的 BLOG
Google DeepMind News
Google DeepMind News
IT之家
IT之家
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
博客园 - 司徒正美
博客园 - Franky
博客园 - 三生石上(FineUI控件)
MyScale Blog
MyScale Blog
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
Stack Overflow Blog
Stack Overflow Blog
Y
Y Combinator Blog
阮一峰的网络日志
阮一峰的网络日志
aimingoo的专栏
aimingoo的专栏
博客园_首页
MongoDB | Blog
MongoDB | Blog
T
The Blog of Author Tim Ferriss
U
Unit 42
Hugging Face - Blog
Hugging Face - Blog
M
MIT News - Artificial intelligence
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
雷峰网
雷峰网
博客园 - 【当耐特】
NISL@THU
NISL@THU
Engineering at Meta
Engineering at Meta
P
Proofpoint News Feed
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
G
GRAHAM CLULEY
V
Vulnerabilities – Threatpost
K
Kaspersky official blog

Elasticsearch

es 过亿数据查询咨询 DocKit 首个稳定版 v1.0 - 更现代化的开源 NoSQL 桌面客户端 支持 DynamoDB, Elasticsearch 和 OpenSearch 大家好 Manticore Search 团队征询社区意见 欢迎反馈 - V2EX ElasticSearch 查询时如果不确定字段名如何进行搜索? - V2EX es 适合模糊查询吗? - V2EX opensearch data 节点,分片数均匀,磁盘存储不均匀, CPU 有些很高有些很低 - V2EX 关于 Elasticsearch 和 springboot 版本的依赖关系 - V2EX IK 分词器里自带的.dic 文件会被默认加载吗 - V2EX ‌Elasticsearch 怎么检索 oss 里面的文件 - V2EX 大量短记录字段的模糊查询如何实现? es 的分词器如何实现多语种记录的转换和分词呢? - V2EX CVE-2023-31419 es 漏洞除了升级版本还有其他解决方式吗? - V2EX ES 新人请教大佬精确查询的问题 一个月写了一个 ES GUI 客户端(笑) 现在用 ES 还推荐通过分词插件的方式对 query 和 doc 进行处理吗? 旧的 elasticsearch 集群能直接加到新的吗? elasticsearch-analysis-ik 远程扩展词典最佳实践是? 有没有精通 es 搜索的,可付费咨询 es 相似度查询 商城项目中 ES 搜索怎么进行分词优化? 基于 casdoor 的 ELK 开源登录认证解决方案: elk-auth-casdoor 请教一个 ElasticSearch 相关的业务问题 elasticsearch 查询、新增、更新数据都时快时慢怎么办? 请教 ES 怎么实现如下聚合查询: 按某关键字分组,每个分组找到最近的一条记录,筛选这条"最近记录"中状态字段为"特定状态" 除了 kibana 还有哪些可视化的 es 镜像恢复方案? 请教下各位大佬,如何在固定的 index 实施 ILM? es8.11.x 是否可以可视化接入 LDAP 呢? es 比如京东搜索商品的时候,如果输入是数字直接搜索,会直接按照分词查询还是通过正则等其他方式进行搜索了 请教并发问题(Elasticsearch 请求高峰) 关于 elasticsearch 机器的选择 elasticsearch 从 5.x 版本后就不允许使用 _id 字段进行排序了. 想问问新版本有什么办法? ELK 版本问题以及服务器数量问题 [求付费技术支持-ES]写入超慢 Elasticsearch 新增字段匹配查询的问题 请教一个 elasticsearch 的模糊查询语法 。 ES 高频词怎么优化 logstash 使用 redis input 插件时,要如何支持 redis cluster? Elasticsearch 底层日期存储格式疑问? 100G 8000 万条信息全文检索, Elasticsearch 是最优选择吗? elasticsearch 首次搜索过慢的问题, 4 千万数据 求教,是否可以把所有高亮的结果合并成一個结果? 为什么 ELK 都不提供一个在命令行停止/关机的命令? ES 如何让中文词条排序靠前? ES 从 File System Cache 到 Segment 大概会耗时多少呢 elasticsearch query url path 语法请教 elk 后台 discover 怎么展示新增的字段 有关 es 中 scroll 的疑问 请教 Elasticsearch 使用什么 ETL 工具 es 插入索引的正常性能应该是多少? Elasticsearch 类 top_hits 复杂搜索问题 ES 如何实现这种多维度多条件的搜索? elasticsearch 索引备份
请教个 es 向量查询的问题 - V2EX
wueryi · 2024-06-19 · via Elasticsearch

这是一个创建于 725 天前的主题,其中的信息可能已经有所发展或是发生改变。

背景:

  • 根据一段文案(假设为商品标题)的向量值在 es 中查询出相似的文案(商品) knn_search
  • 向量维度是 1024 维度 余弦函数计算距离
  • 目前已有数据是 600w 左右 整体 es 数据量在 250g 左右
  • es 节点 8c32g *3

问题

目前想前台使用这种向量查询的结果 但是问题是目前单次查询的效率很低基本上得 60s 左右才能返回。

  • 有大佬有经验这种量级的查询大概需要升配到什么配置吗?
  • 或者有什么其他的查询优化方案吗?

其他

  • 为啥非得用 es 不用其他向量库 例如 milvus ?:因为存量数据在这儿,所以暂时没有迁移。
  • 另外我看到的有限的返回结果中,很多文案相近但是不是同一个商品的也会被查询出来,准确率其实有待考证。
somebody1

1

somebody1      2024 年 6 月 19 日

不懂。
建议你去 es 的社区发问题!

fffflyfish

3

fffflyfish      2024 年 6 月 19 日

向量做下降维呗,1024 太长了,商品标题一般也就 60~128 维差不多够用了

wanghello

4

wanghello      2024 年 6 月 19 日

redis search 咋样

jetyang

5

jetyang      2024 年 6 月 19 日

1.ES 做向量检索就是慢,了解一下 ANN ,近似查询才能加速
2.向量检索就是考虑到意思相近但不是同样的文字,如果要同一个干嘛启用向量查询

my3157

6

my3157      2024 年 6 月 19 日 via Android

试下 meilisearch

wueryi

7

wueryi      2024 年 6 月 19 日

@fffflyfish #3 主要是存量数量里已经有 1024 维度的了,刷数据的话时间比较长。另外就是没有具体试过降维会不会准确率降低,余弦函数的距离我理解应该不会降低准确率。

wueryi

8

wueryi      2024 年 6 月 19 日

@jetyang #5 我试了 ANN 这个配置对应这个量级 快不了多少 ,都是几十 s 上下,2.应用的场景其实就是针对不同平台同一个商品,进行搜索,并不是一样的文案,大概率都是相似文案。

fffflyfish

9

fffflyfish      2024 年 6 月 19 日

@wueryi 降维对效果的影响你在 STS dataset 上实际测下就知道了,看上面 ANN 都加速不了的话你只能在准确率和计算耗时之间权衡了,或者你调研下有没有基于 GPU 的向量检索方案

picone

10

picone      2024 年 6 月 19 日

@wueryi #8 ANN 不可能这么慢,百万级规模也不算特别大,不需要上到 GPU 。降维试试不影响准确召回即可。有个问题是这个数据集存在更新吗,更新频繁吗?除了 ES 外也有其它专门做向量检索的项目可以都调研下对比下

wueryi

11

wueryi      2024 年 6 月 19 日

@picone #10 存在更新 但是不频繁,在试 milvus 但是目前没有这么大的量供测试😂

monkeyk

13

monkeyk      2024 年 6 月 19 日

这类问题要先找到根源在哪,像 milvus 之类的向量库都推荐使用 GPU 来部署;
一般能想到的就是 CPU 的并发支持 没有 GPU 高。
尝试找一些官方提供的 debug 工具试试

OPLUS

14

OPLUS      2024 年 6 月 19 日

之前做过 128 维的测试,默认索引下 es 就是比 milvus 慢很多。

Chris2023

15

Chris2023      2024 年 6 月 19 日

如果是优化方案:1.纬度太大 2.数据更新是否频繁 3.磁盘最好是 SSD 4.内存利用率可以看一下。 向量查询还是要用向量数据库来承载,ES 一般不这么用。

picone

16

picone      2024 年 6 月 19 日

@wueryi #11 PQ 量化,分库这些都可以搞上去试试,百万级数据单机理论上是可以处理的,牺牲少量召回准确率。

如果使用 ANN 的话,更新的量看大不大,大的话可以单独作为一个子库做倒排并行检索,然后日/月粒度全量重新建库就好了。

wxf666

18

wxf666      2024 年 6 月 19 日

请教一下,这是一种更高级的全文搜索吗?

比如,要是用到 V2EX 的搜索里,就能以自然语言形式,搜出更匹配的帖子/回复来,而不是关键词/近义词匹配而已?

某个字符串的 1024 纬度数据,是咋来的呢?每个纬度,是代表某个方向上的相关程度吗?(如动物/人类/编程/工地/……)

qieqie

19

qieqie      2024 年 6 月 19 日 via iPhone

ES knn 性能就是低的匪夷所思,甚至比 ssd ondisk 索引方案还低一个数量级。

wueryi

20

wueryi      2024 年 6 月 24 日

@Chris2023 #15 是的本来打算是用 milvus 只是当前数据存在 es 里 es 刚好支持 所以测试一下性能 然后发现确实别我想想的要更差一点儿。然后分析原因的时候不确定是不是配置的问题导致的。

wueryi

21

wueryi      2024 年 6 月 24 日

@picone #16 好的 我们业务量级可能得 1kw 左右,当前存的大概是 600w ,更新的频率不频繁 目前我升配到 8c32g 3 个节点 无论还是 ann 还是 knn 性能都是比较差劲的😅 不知道是不是我哪个环境设置的不对

wueryi

22

wueryi      2024 年 6 月 24 日

@qieqie #19 😅😅 确实优点出乎意料 我查阅其他资料来看 es 的向量搜索还可以 不知道是不是我哪个环境操作的有问题