




















最近我给自己搭了一套自动化流程:每天追踪 AI / CS 方向的新论文和 GitHub Trending 热门项目,然后自动筛选、整理、生成中文摘要,最后沉淀成日报。
这套系统的目标很简单:
不再靠手动刷 arXiv 、GitHub Trending 、Twitter/X 和各种群消息来追前沿,而是让 AI Agent 每天帮我完成第一轮信息筛选。
我用的是 OpenClaw ,主要让它承担三件事:
这篇文章简单分享一下系统是怎么搭的,以及目前踩到的一些坑。
如果你关注 AI 工程化,信息源会非常碎:
手动追踪的问题是:
所以我想做一个自动化系统,先让 Agent 帮我做“第一轮粗筛”,把候选论文和项目整理出来,再对其中高价值内容做中文精读。
目前流程大概是这样:
定时任务 / Cron
↓
数据源抓取
├── arXiv API
├── GitHub Trending / GitHub API
└── 其他公开信息源
↓
候选池入库
↓
规则过滤 + 去重
↓
Agent 精读 / 摘要生成
↓
Markdown / JSON / SQLite 归档
↓
公众号草稿 / GitHub 日报 / 后续分发
核心不是“抓取”,抓取其实不难。真正麻烦的是:
论文侧主要关注这些方向:
数据源主要是 arXiv API ,例如:
每篇论文进入候选池后,会先做基础解析:
然后做几层过滤:
通过过滤后,Agent 会读取论文摘要、PDF 或 HTML 版本,生成结构化产物:
paper_slot/
deep_read_article.md
deep_read_meta.json
sources.md
evidence-notes.md
seo-title.json
我比较看重 sources.md 和 evidence-notes.md,因为 AI 写论文解读很容易“看标题发挥”。所以每篇文章都需要保留来源、证据和不确定点。
GitHub Trending 的噪声非常大。
有些项目一天几千 Star ,但可能只是:
所以我没有只按 Star 排序,而是做了几个维度:
一个项目进入精读流程前,至少要检查:
repo_slot/
repo-evidence.json
readme.md
key-files.md
sources.md
deep_read_article.md
seo-title.json
我希望最后生成的不是“这个项目很厉害,大家快去看”的营销文,而是能回答几个问题:
我需要的不是单次 ChatGPT 问答,而是一个能长期运行的个人自动化 Agent 。
OpenClaw 对我比较有用的点:
换句话说,它更像一个“能干活的个人自动化工作台”,而不是只会聊天的模型。
当然,最重要的是:所有自动生成内容都要有检查门禁。比如:
现在我的目标是每天产出两类内容:
每日内容会先进入本地归档,再进入公众号草稿箱,最后人工检查后发布。
我也准备把其中一部分公开成 GitHub 仓库,作为每日 AI 论文和 GitHub Trending 的中文索引:
完整版的深度解读会继续放在公众号里。
GitHub Trending 很容易让人被短期 Star 牵着走。后来我加了“工程价值”和“主题相关性”的过滤,否则日报会变成项目搬运。
如果 prompt 不约束,论文解读很容易变成:
本文提出了一种创新方法,显著提升了性能,具有重要意义。
这种话基本没信息量。
所以我现在要求每篇都必须回答:
自动化写作最怕“看起来很完整,但来源不可查”。
所以每个 slot 都会保留来源文件,例如:
这样后面出了问题可以回溯。
如果内容只存在公众号里,后续搜索和复用都不方便。
所以我会同时保留:
接下来我想继续做几件事:
如果你也在做类似的论文追踪、GitHub Trending 筛选、AI 技术日报,欢迎交流。
我会把完整的中文精读和每日筛选结果放在公众号「 AltenAI 观察」。
最后放一句软广:如果你关心 RAG 、搜索、Agent 、API 接入和大模型工程化落地,可以关注一下「 AltenAI 观察」。我会持续把每天筛出来的论文和项目做成中文摘要和工程解读。
也把文章放在了 github: https://github.com/AltenLi/daily-paper-github-trends
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。