惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Help Net Security
Help Net Security
S
SegmentFault 最新的问题
T
The Blog of Author Tim Ferriss
J
Java Code Geeks
博客园 - 三生石上(FineUI控件)
月光博客
月光博客
C
Check Point Blog
M
MIT News - Artificial intelligence
GbyAI
GbyAI
H
Hackread – Cybersecurity News, Data Breaches, AI and More
U
Unit 42
D
Docker
G
Google Developers Blog
云风的 BLOG
云风的 BLOG
H
Help Net Security
D
DataBreaches.Net
Microsoft Azure Blog
Microsoft Azure Blog
B
Blog RSS Feed
Engineering at Meta
Engineering at Meta
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
B
Blog
Cloudbric
Cloudbric
Blog — PlanetScale
Blog — PlanetScale
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
T
Troy Hunt's Blog
N
News | PayPal Newsroom
V2EX - 技术
V2EX - 技术
H
Heimdal Security Blog
S
Security @ Cisco Blogs
V
Visual Studio Blog
The Last Watchdog
The Last Watchdog
博客园 - Franky
大猫的无限游戏
大猫的无限游戏
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
Webroot Blog
Webroot Blog
Security Archives - TechRepublic
Security Archives - TechRepublic
C
Cyber Attacks, Cyber Crime and Cyber Security
Last Week in AI
Last Week in AI
爱范儿
爱范儿
博客园 - 聂微东
S
Securelist
小众软件
小众软件
酷 壳 – CoolShell
酷 壳 – CoolShell
Cisco Talos Blog
Cisco Talos Blog
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
C
CXSECURITY Database RSS Feed - CXSecurity.com
V
Vulnerabilities – Threatpost
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
O
OpenAI News
Apple Machine Learning Research
Apple Machine Learning Research

博客园 - LCX测试小姐姐

apifox 批量导入和运行项目 Jmeter 与 阿里云 性能测试PTS 作为python自动化测试 推送阿里的通义灵码,大大提高效率 redis测试点 性能测试过程中优化-3: 性能测试过程中优化-2: jmeter 把响应结果数据写入指定txt文件 Elasticsearch 常用功能 Cookie、session、token、sign鉴权 性能测试过程中优化-1: RocketMQ jmeter性能测试实例3解析--性能瓶颈分析过程 pip freeze >requirements.txt python 生成 .exe文件、调用.exe文件 jmeter性能测试实例2解析--linux环境 memcache常用命令 memcache与redis关系与区别 MySql常见性能查询、调优语句和慢sql 性能测试中TPS值上不去分析原因及满足性能指标 mysql之测试工程师必会基础知识
Elasticsearch 分词功能
LCX测试小姐姐 · 2023-12-29 · via 博客园 - LCX测试小姐姐

分词器定义:

从一串文本中切分出一个一个的词条,并对每个词条进行标准化

分词处理过程:

ES内置分词器:

1、standard分词器:默认将词汇单元转换成小写形式,去掉领用词和标点符号,中文按单字切分

2、simple分词器:先通过非字母字符来分割文本信息,然后奖词汇单元统一为小写形式。也会去掉数字类型字条

3、whitespace分词器:能去掉空格;但不能大小写转换,不支持中文;也不进行标准化处理

4、language分词器:特定语言分词器,不支持中文

中文分词器(插件):

ik_max_word: 将文本做最细精度的拆分; 尽可能多的拆分出词语

ik_smart: 做粗粒度的拆分; 已被分出的词语将不会再次被其它词语占有

搜索匹配度计算:

1、相关因素

TF:词条在当前文档里出现频率,次数越多相关度超高

IDF:词条在所有文档里出现频率,次数越多相关度越低

2、计算过程

explain=true显示计算方式; 结果_score计算结果,"_explanation"显示计算过程

posted @ 2023-12-29 19:50  LCX测试小姐姐  阅读(156)  评论(0)    收藏  举报