


























这是一个创建于 725 天前的主题,其中的信息可能已经有所发展或是发生改变。
目前想前台使用这种向量查询的结果 但是问题是目前单次查询的效率很低基本上得 60s 左右才能返回。
1 somebody1 2024 年 6 月 19 日不懂。 |
3 fffflyfish 2024 年 6 月 19 日向量做下降维呗,1024 太长了,商品标题一般也就 60~128 维差不多够用了 |
4 wanghello 2024 年 6 月 19 日redis search 咋样 |
6 my3157 2024 年 6 月 19 日 via Android试下 meilisearch |
7 wueryi 2024 年 6 月 19 日@fffflyfish #3 主要是存量数量里已经有 1024 维度的了,刷数据的话时间比较长。另外就是没有具体试过降维会不会准确率降低,余弦函数的距离我理解应该不会降低准确率。 |
8 wueryi 2024 年 6 月 19 日@jetyang #5 我试了 ANN 这个配置对应这个量级 快不了多少 ,都是几十 s 上下,2.应用的场景其实就是针对不同平台同一个商品,进行搜索,并不是一样的文案,大概率都是相似文案。 |
9 fffflyfish 2024 年 6 月 19 日@wueryi 降维对效果的影响你在 STS dataset 上实际测下就知道了,看上面 ANN 都加速不了的话你只能在准确率和计算耗时之间权衡了,或者你调研下有没有基于 GPU 的向量检索方案 |
10 picone 2024 年 6 月 19 日@wueryi #8 ANN 不可能这么慢,百万级规模也不算特别大,不需要上到 GPU 。降维试试不影响准确召回即可。有个问题是这个数据集存在更新吗,更新频繁吗?除了 ES 外也有其它专门做向量检索的项目可以都调研下对比下 |
13 monkeyk 2024 年 6 月 19 日这类问题要先找到根源在哪,像 milvus 之类的向量库都推荐使用 GPU 来部署; |
14 OPLUS 2024 年 6 月 19 日之前做过 128 维的测试,默认索引下 es 就是比 milvus 慢很多。 |
15 Chris2023 2024 年 6 月 19 日如果是优化方案:1.纬度太大 2.数据更新是否频繁 3.磁盘最好是 SSD 4.内存利用率可以看一下。 向量查询还是要用向量数据库来承载,ES 一般不这么用。 |
16 picone 2024 年 6 月 19 日@wueryi #11 PQ 量化,分库这些都可以搞上去试试,百万级数据单机理论上是可以处理的,牺牲少量召回准确率。 如果使用 ANN 的话,更新的量看大不大,大的话可以单独作为一个子库做倒排并行检索,然后日/月粒度全量重新建库就好了。 |
18 wxf666 2024 年 6 月 19 日请教一下,这是一种更高级的全文搜索吗? 比如,要是用到 V2EX 的搜索里,就能以自然语言形式,搜出更匹配的帖子/回复来,而不是关键词/近义词匹配而已? 某个字符串的 1024 纬度数据,是咋来的呢?每个纬度,是代表某个方向上的相关程度吗?(如动物/人类/编程/工地/……) |
19 qieqie 2024 年 6 月 19 日 via iPhoneES knn 性能就是低的匪夷所思,甚至比 ssd ondisk 索引方案还低一个数量级。 |
20 wueryi 2024 年 6 月 24 日@Chris2023 #15 是的本来打算是用 milvus 只是当前数据存在 es 里 es 刚好支持 所以测试一下性能 然后发现确实别我想想的要更差一点儿。然后分析原因的时候不确定是不是配置的问题导致的。 |
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。