惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

V
V2EX
W
WeLiveSecurity
IT之家
IT之家
A
About on SuperTechFans
B
Blog
L
LangChain Blog
H
Help Net Security
Engineering at Meta
Engineering at Meta
Recent Announcements
Recent Announcements
Google Online Security Blog
Google Online Security Blog
宝玉的分享
宝玉的分享
MyScale Blog
MyScale Blog
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
N
News and Events Feed by Topic
Schneier on Security
Schneier on Security
GbyAI
GbyAI
博客园 - 叶小钗
人人都是产品经理
人人都是产品经理
S
SegmentFault 最新的问题
Cloudbric
Cloudbric
WordPress大学
WordPress大学
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Y
Y Combinator Blog
S
Security Affairs
The Last Watchdog
The Last Watchdog
H
Heimdal Security Blog
T
The Blog of Author Tim Ferriss
Last Week in AI
Last Week in AI
博客园 - 聂微东
H
Hackread – Cybersecurity News, Data Breaches, AI and More
P
Privacy & Cybersecurity Law Blog
V
Visual Studio Blog
H
Hacker News: Front Page
Recorded Future
Recorded Future
Cyberwarzone
Cyberwarzone
L
Lohrmann on Cybersecurity
Simon Willison's Weblog
Simon Willison's Weblog
P
Privacy International News Feed
博客园 - 三生石上(FineUI控件)
大猫的无限游戏
大猫的无限游戏
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Blog — PlanetScale
Blog — PlanetScale
G
Google Developers Blog
aimingoo的专栏
aimingoo的专栏
C
Cybersecurity and Infrastructure Security Agency CISA
AWS News Blog
AWS News Blog
Jina AI
Jina AI
N
News | PayPal Newsroom
S
Schneier on Security

搜索引擎技术研究

装机 配置 预算 - V2EX neko kasm 远程浏览器 docker 自部署 - V2EX 不知道有没有人精通 SEO,我想咨询下我网站的百度搜索问题 - V2EX 目前还有支持网页快照的搜索引擎没? - V2EX 如何起昵称,可以利用到搜索引擎的分词规则,进而避免在搜索引擎中被搜索到? - V2EX 如何让一些对搜索引擎不友好的内容平台变得友好? - V2EX 你们使用的常用搜索关键词或技巧是什么? - V2EX 分享一个搜索引擎 - V2EX 学习向量搜求教 - V2EX Brave Search 是当下我认为最好的搜索引擎 - V2EX 同样的搜索内容,为啥谷歌返回的结果差别那么大? - V2EX 关于 google 中文搜索结果的问题 - V2EX 想了解“概念”这个汉语词汇的词源,搜索引擎的搜索关键词应该用什么? - V2EX 求助各位 SEO 搜索的问题:百度站内搜索,搜一些没有内容的关键字会搜出广告,请问是被黑了吗,怎么防止呢? - V2EX Google Search Is Dying - V2EX 谷歌精确中文字符串搜索无效 - V2EX 百度/bing 搜索结果过滤插件有推荐的吗? - V2EX 谷歌的爬虫有点厉害啊 - V2EX 百度搜索已由提高自家站点权重的引流方式改变为屏蔽其他网站 - V2EX 分享一个集中式阅读英文技术文档的网站 - V2EX dogedoge 什么时候可以上市呀?我一定要去买它的股票,国内上市好了,比较好买。 - V2EX 如何区分词库的哪些词是 事务搜索词,信息搜索词,导航搜索词 - V2EX 向各位大神请教关于搜索聚合的问题 - V2EX 从零开发的工作搜索网站,一个人全栈开发的,大家看看怎么样 - V2EX 什么样的搜索引擎,才是用户所需要的搜索引擎? - V2EX sphinx Linux 两千万数据 (current index format allows up to 4 GB) - V2EX 新站一个月,搜索引擎抓取留念 - V2EX Top 10 搜索引擎爬虫和 User-Agents - V2EX 那些不用百度搜索的,及不招用百度搜索的求职者的,怎么看待这个 - V2EX 网站统计可以运算吗 - V2EX 一种非常好的优化手段 - V2EX blekko | slashtag search - V2EX 求 SEO 的书籍/E-book/Blog? - V2EX 关于SEO - V2EX 关于目前 V2EX 搜索所用到的软件 - V2EX
关于大量文本搜索的功能要怎么设计 - V2EX
Philippa · 2020-06-11 · via 搜索引擎技术研究

背景描述:目前有 10 万份到 100 万份单独英语文本,需求是首先抽取每个文本的每个单词出来,二是搜索时能够找出所有包含该关键字的文本出来,并能够对应到行。

当前想法:的方案是 elasticsearch,分词的话找个 python 库处理一下,有点像个迷你的搜索引擎,但不确定是否需要那么重量级的工具。

请教:有什么简单又直接又省运维成本的方案?非工作项目,所以全部上云,能不要内存型数据库就不要,能上 serverless 就上 serverless,以降每个月成本压到最低。Java 独有的技术线上不了,Python 、Go 和 JavaScript ( Node )都可以。谢。