惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Webroot Blog
Webroot Blog
IT之家
IT之家
博客园_首页
Apple Machine Learning Research
Apple Machine Learning Research
Last Week in AI
Last Week in AI
Hugging Face - Blog
Hugging Face - Blog
爱范儿
爱范儿
G
Google Developers Blog
Stack Overflow Blog
Stack Overflow Blog
Blog — PlanetScale
Blog — PlanetScale
Recent Announcements
Recent Announcements
M
MIT News - Artificial intelligence
The Cloudflare Blog
Microsoft Security Blog
Microsoft Security Blog
aimingoo的专栏
aimingoo的专栏
F
Full Disclosure
H
Help Net Security
量子位
Martin Fowler
Martin Fowler
The GitHub Blog
The GitHub Blog
V
V2EX
U
Unit 42
Microsoft Azure Blog
Microsoft Azure Blog
美团技术团队
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
Engineering at Meta
Engineering at Meta
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
I
InfoQ
博客园 - 叶小钗
V
V2EX - 技术
T
Tailwind CSS Blog
P
Proofpoint News Feed
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
T
Troy Hunt's Blog
N
News and Events Feed by Topic
E
Exploit-DB.com RSS Feed
S
Secure Thoughts
Recent Commits to openclaw:main
Recent Commits to openclaw:main
www.infosecurity-magazine.com
www.infosecurity-magazine.com
C
CXSECURITY Database RSS Feed - CXSecurity.com
C
Check Point Blog
Project Zero
Project Zero
O
OpenAI News
T
The Exploit Database - CXSecurity.com
P
Proofpoint News Feed
L
LINUX DO - 最新话题
C
Cybersecurity and Infrastructure Security Agency CISA
博客园 - 三生石上(FineUI控件)

Elasticsearch

es 过亿数据查询咨询 DocKit 首个稳定版 v1.0 - 更现代化的开源 NoSQL 桌面客户端 支持 DynamoDB, Elasticsearch 和 OpenSearch 大家好 Manticore Search 团队征询社区意见 欢迎反馈 - V2EX ElasticSearch 查询时如果不确定字段名如何进行搜索? - V2EX es 适合模糊查询吗? - V2EX opensearch data 节点,分片数均匀,磁盘存储不均匀, CPU 有些很高有些很低 - V2EX 关于 Elasticsearch 和 springboot 版本的依赖关系 - V2EX IK 分词器里自带的.dic 文件会被默认加载吗 - V2EX ‌Elasticsearch 怎么检索 oss 里面的文件 - V2EX 大量短记录字段的模糊查询如何实现? es 的分词器如何实现多语种记录的转换和分词呢? - V2EX CVE-2023-31419 es 漏洞除了升级版本还有其他解决方式吗? - V2EX 请教个 es 向量查询的问题 - V2EX ES 新人请教大佬精确查询的问题 - V2EX 一个月写了一个 ES GUI 客户端(笑) - V2EX 现在用 ES 还推荐通过分词插件的方式对 query 和 doc 进行处理吗? - V2EX 旧的 elasticsearch 集群能直接加到新的吗? - V2EX elasticsearch-analysis-ik 远程扩展词典最佳实践是? - V2EX es 相似度查询 商城项目中 ES 搜索怎么进行分词优化? 基于 casdoor 的 ELK 开源登录认证解决方案: elk-auth-casdoor 请教一个 ElasticSearch 相关的业务问题 elasticsearch 查询、新增、更新数据都时快时慢怎么办? 请教 ES 怎么实现如下聚合查询: 按某关键字分组,每个分组找到最近的一条记录,筛选这条"最近记录"中状态字段为"特定状态" 除了 kibana 还有哪些可视化的 es 镜像恢复方案? 请教下各位大佬,如何在固定的 index 实施 ILM? es8.11.x 是否可以可视化接入 LDAP 呢? es 比如京东搜索商品的时候,如果输入是数字直接搜索,会直接按照分词查询还是通过正则等其他方式进行搜索了 请教并发问题(Elasticsearch 请求高峰) 关于 elasticsearch 机器的选择 elasticsearch 从 5.x 版本后就不允许使用 _id 字段进行排序了. 想问问新版本有什么办法? ELK 版本问题以及服务器数量问题 [求付费技术支持-ES]写入超慢 Elasticsearch 新增字段匹配查询的问题 请教一个 elasticsearch 的模糊查询语法 。 ES 高频词怎么优化 logstash 使用 redis input 插件时,要如何支持 redis cluster? Elasticsearch 底层日期存储格式疑问? 100G 8000 万条信息全文检索, Elasticsearch 是最优选择吗? elasticsearch 首次搜索过慢的问题, 4 千万数据 求教,是否可以把所有高亮的结果合并成一個结果? 为什么 ELK 都不提供一个在命令行停止/关机的命令? ES 如何让中文词条排序靠前? ES 从 File System Cache 到 Segment 大概会耗时多少呢 elasticsearch query url path 语法请教 elk 后台 discover 怎么展示新增的字段 有关 es 中 scroll 的疑问 请教 Elasticsearch 使用什么 ETL 工具 es 插入索引的正常性能应该是多少? Elasticsearch 类 top_hits 复杂搜索问题 ES 如何实现这种多维度多条件的搜索? elasticsearch 索引备份
有没有精通 es 搜索的,可付费咨询 - V2EX
findlisa · 2024-04-18 · via Elasticsearch

  • es
  • 搜索
  • 相似度

    25 条回复    2024-06-06 20:48:53 +08:00

    skyemin

    1

    skyemin      2024 年 4 月 18 日

    es 本身不是就有相关度 score 吗

    findlisa

    4

    findlisa      2024 年 4 月 18 日 via iPhone

    @skyemin 返回那个_score 是 0 到正无穷 而且也无法判断是不是完全匹配

    fkdog

    5

    fkdog      2024 年 4 月 18 日

    给你个思路,用向量搜索。
    然后你需要一套算法把文本向量化。

    tarasha

    6

    tarasha      2024 年 4 月 18 日   ❤️ 1

    可以试试 bge-m3 ,可以将文本转换为密集向量和稀疏向量()。
    然后密集向量在 es 中存储为 Dense_Vector ,稀疏向量用 Rank_Features 。
    最后 KnnQuery + RankFeatureQuery 混合检索,效果很好。

    findlisa

    7

    findlisa      2024 年 4 月 18 日 via iPhone

    @fkdog 向量了解过,需要将文本转向量,挺麻烦的

    ming159

    8

    ming159      2024 年 4 月 18 日

    ES 支持的搜索功能非常丰富. 但总的分为 2 类 query 与 filter
    query 是类似模糊匹配,也就是会有一个 _score .分值越高,说明匹配度越高.
    filter:是严格匹配. 匹配到数据时,得到的 结果只有 yes/no. 所以只要匹配到 一定是符合过滤条件的.
    你的需求应该是这样处理:
    1. 构造一个查询条件,同时使用 filter 和 query. 对同一个关键词进行查询. 在拿到结果后,再做处理.
    2. 分两次查询,先用 filter 查询,如果没有结果再用 query 查询一次.

    akinoowari

    11

    akinoowari      2024 年 4 月 18 日

    @findlisa 第一次查询 filter 用 term 匹配一下字段.keyword ,然后加上 macth 查询,得到完全匹配的最高得分,第二次查询的时候计算一下就好,如果第一次没有拿到结果,说明没有完全匹配的,用 cosinesimilarity+1/2.x 得到最终相似度,x 的值看着给,反正不会得到 1 的结果就行

    strawberryBug

    12

    strawberryBug      2024 年 4 月 18 日 via Android

    给你个关键词 gauss decay function ,可以自定义 score

    lemon1997

    15

    lemon1997      2024 年 4 月 19 日

    我做过一个简陋的,需要对文本分词,然后匹配命中数量,不过需要去掉一些无意义的词

    findlisa

    16

    findlisa      2024 年 4 月 19 日 via iPhone

    @lemon1997 能简单说下思路吗? 用关键字查询然后取分数最大的那一条做 文本相似度对比,然后拿来做分母吗

    findlisa

    17

    findlisa      2024 年 4 月 19 日 via iPhone

    @akinoowari 大佬,有点疑惑,第一次查询加上 match 的话应该都是会有数据的,如果第一次没数据,第二次应该也查不到数据

    findlisa

    19

    findlisa      2024 年 4 月 22 日 via iPhone

    @akinoowari 那这样我第一次直接用 match 匹配,然后 返回的第一条拿到 highlight 字段后,拿来用 cosinsimilarity 和查询关键字比较,等于 1 就是完全匹配,第二次直接拿 score 做分母,小于 1 就用这个值算出相应的 maxscore= 0.x/_socre

    teiboku1

    23

    teiboku1      2024 年 6 月 1 日

    你可以用语义搜索然后把分数自己归一化一下

    teiboku1

    25

    teiboku1      2024 年 6 月 6 日

    @findlisa 是的啊 你百度一下归一化 然后 max 和 0 区间归一化就行 但是语义搜索的话, 可能 1 代表完全匹配这个也可以你自己设定一个阈值 多少分算是 1