惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
人人都是产品经理
人人都是产品经理
Cisco Talos Blog
Cisco Talos Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
V
V2EX
博客园 - 三生石上(FineUI控件)
Martin Fowler
Martin Fowler
WordPress大学
WordPress大学
D
Docker
S
SegmentFault 最新的问题
博客园 - 聂微东
美团技术团队
Apple Machine Learning Research
Apple Machine Learning Research
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Last Week in AI
Last Week in AI
M
MIT News - Artificial intelligence
F
Fortinet All Blogs
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
The GitHub Blog
The GitHub Blog
GbyAI
GbyAI
L
LangChain Blog
Vercel News
Vercel News
博客园 - 叶小钗
MongoDB | Blog
MongoDB | Blog
Stack Overflow Blog
Stack Overflow Blog
H
Help Net Security
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
The Cloudflare Blog
Engineering at Meta
Engineering at Meta
T
Threat Research - Cisco Blogs
T
Threatpost
Scott Helme
Scott Helme
T
Tailwind CSS Blog
Latest news
Latest news
Stack Overflow Blog
Stack Overflow Blog
Blog — PlanetScale
Blog — PlanetScale
The Register - Security
The Register - Security
罗磊的独立博客
P
Proofpoint News Feed
腾讯CDC
S
Schneier on Security
雷峰网
雷峰网
A
About on SuperTechFans
T
Tenable Blog
F
Full Disclosure
Cyberwarzone
Cyberwarzone
博客园_首页
有赞技术团队
有赞技术团队
K
Kaspersky official blog

Yorksite

Plog004:好吃好吃 · Plog Plog003:Until Then · Plog Plog002:春天花会开 · Plog Plog001:让人疲惫的AI与在战锤世界中仰泳,赞美欧姆尼赛亚? · Plog rhaeTree:一个基于 Rust 的进化树可视化编辑工具 · Articles 我的键盘快捷键们 · Articles 迟到的2025年度数码产品总结 · Articles 关于我和这个博客 · Info 买了一只十多年前的老 Pebble · Articles 盘点一下今年让我上头的那些游戏 · Articles 【吃了啥】新利查西菜馆 · Articles 解决远程服务器上Singularity联网问题 · Articles 又是一个Mac软件列表 Vita3K存档转移到PSV实机 SnapGene创建多外显子基因结构 Rstudio也能用GitHub Copilot了 · Articles 双十一买了啥 文献一团乱麻?试试PARA管理方法 · Articles 点名的风还是吹到了Blog · Articles 从Raindrop迁移到了Anybox 数据可视化——基本图形元素及其应用
根据Zotero数据库追踪新发表文献 · Articles
2025-10-30 · via Yorksite

Published Oct 30, 2025

3 minutes read

很长时间里,我追踪新发表文章的方式是用RSS订阅几个感兴趣的期刊网站,每天午休的时候去翻一翻,看有没有感兴趣的,同时也订阅了一些公众号,遇到感兴趣的文章推送就丢进稍后读列表。然而这一流程有几个比较膈应的点,一方面,RSS订阅对于专业领域内的期刊,其中能遇到自己感兴趣文章的概率较高,但是对于综合类期刊(比如CNS),大部分文章跨专业太远了,订阅其RSS大部分推送都是自己不感兴趣的;另一方面,专业相关的大文章公众号一般会发,但有些非国内作者或是中小文章,则很难见到推送,并且公众号的推荐排序真的是一言难尽。

因此,很希望能有更加贴合我阅读兴趣的文章追踪方式。也曾经想过靠关键词过滤等方式筛选,但关键词硬性匹配很容易过于严格,并且维护一份关键词库也绝非易事。前几年LLM兴盛后,动过一些靠AI来追踪文献的念头,但也没想好怎么合适地告知AI我的兴趣所在,并且将大量文章直接丢给AI进行筛选,每天消耗的token估计也少不了。

前些天偶然想到,既然我这几年已经在文献管理工具Zotero里积累了大量阅读过的文献,实际就应该以这些文献为种子,生成一份我的兴趣画像,然后再用这份画像去追踪文献。于是在用codex捣鼓了几天后,做了个脚本,这里暂且将其命名为ZotWatcher。下图为其在News Explorer中的订阅效果。

image.png

实现逻辑

太长不看:ZotWatcher会利用Zotero数据库中已有文章的信息,生成一份文献兴趣索引,再将每天运行时新发表的文章与索引进行比对,找到与已有兴趣打分较高的文章作为候选文章,生成RSS供我订阅。

详细版本

  • 获取Zotero文献库:首先通过Zotero API获取个人积累的文献数据库,只是标题、摘要等文献元数据的话,Zotero并不限制储存容量。
  • 构建文献信息索引:将读取到的文献元数据,通过TextVectorizer进行向量化,构建FAISS索引,同时生成一份概要统计文献,包含高频出现的期刊、作者等信息。
  • 抓取候选文章:目前启用了Crossref、arXiv、bioRxiv/medRxiv的API作为新发表文章的来源,同时会根据统计到的高频期刊进行补充抓取。后续可能会加上Altmetric的热门文献。
  • 文献打分:首先利用FAISS检索新获取文献与已有数据库的相似度,同时结合ScimagoJR的期刊SJR质量、时效性、作者等进行加权打分。
  • 文献过滤:根据打分和指定的输出文献数量(默认是20,避免overwhelming),同时筛选只保留近七天内的文章、限制预印本比例不超过30%,获得最终输出。
  • RSS生成:将候选文章整理成RSS格式,使用GitHub Actions每天早上6点运行,并把运行结果以GitHub Pages形式发布方便使用其他软件订阅。

如果你也想试试

本仓库地址为:ZotWatch

可以Clone或Fork后,需要在设置中配置几项必要信息,例如自己的ZOTERO_API_KEYZOTERO_USER_ID等,这些信息的获取方式请见README页面,这里就不赘述了。

每次检测到git push行为或次日六点后该仓库会自动运行,并生成结果。需要留意直接给出的GitHub Pages地址如果打不开,需要在末尾加上/feed.xml(因为没有生成对应的index页面,直接访问可能打不开)。