惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

P
Proofpoint News Feed
Microsoft Azure Blog
Microsoft Azure Blog
Jina AI
Jina AI
博客园_首页
宝玉的分享
宝玉的分享
The Cloudflare Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
量子位
T
Tailwind CSS Blog
雷峰网
雷峰网
Blog — PlanetScale
Blog — PlanetScale
Last Week in AI
Last Week in AI
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Hugging Face - Blog
Hugging Face - Blog
月光博客
月光博客
罗磊的独立博客
F
Fortinet All Blogs
酷 壳 – CoolShell
酷 壳 – CoolShell
Stack Overflow Blog
Stack Overflow Blog
J
Java Code Geeks
V
V2EX
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
The GitHub Blog
The GitHub Blog
Apple Machine Learning Research
Apple Machine Learning Research
博客园 - 聂微东
U
Unit 42
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
D
Docker
阮一峰的网络日志
阮一峰的网络日志
I
InfoQ
Simon Willison's Weblog
Simon Willison's Weblog
D
DataBreaches.Net
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
I
Intezer
Scott Helme
Scott Helme
B
Blog
M
MIT News - Artificial intelligence
K
Kaspersky official blog
H
Help Net Security
V
Vulnerabilities – Threatpost
C
CXSECURITY Database RSS Feed - CXSecurity.com
Engineering at Meta
Engineering at Meta
博客园 - 【当耐特】
L
Lohrmann on Cybersecurity
P
Privacy & Cybersecurity Law Blog
Project Zero
Project Zero
The Hacker News
The Hacker News
B
Blog RSS Feed
T
Tor Project blog

deepseek

Deepseek V4 要涨价? 高峰期要价格翻倍了 - V2EX 如何看待 DeepSeek V4 API 引入峰谷定价?高峰期直接翻倍,算力真不够用了? - V2EX DeepSeek 的追赶之路,还要走多久? - V2EX 为什么我的 deepseek api 胡言乱语? - V2EX deepseek 资源又跟去年一样紧张啦? - V2EX claude desktop 接 deepseek token 消耗巨大 - V2EX 我一个朋友说,去年她在 DeepSeek 官网充了 100 块钱,到现在还没用完。 - V2EX DeepSeek v4 pro 好像挺不错的, 我 1200 行的代码, 让他找 bug, 可以找出来并改成功.消耗 0.33 元 deepseek-v4-pro 使用最省钱方式: Reasonix 1.x + Opencode go deepseek v4 用哪个工具性价比最高? claude code 2.1.154 的 "Lean System Prompt Now Default" 和现有 deepseek 的 anthropic 格式不兼容 今天 deepseek 崩了吗 deepseek v4 pro 深度思考模式返工现象明显 DeepSeek api 改成永久打折了 DeepSeek 网页端漏洞 DeepSeek v4 API 并不便宜啊,我只输入一个问题,仅三个单词,就花了 7 万 token? deepseek 的思考和非思考模式质量区别大吗?对 token 消耗有没有影响? [开源] 将 Codex Vibe 成了 DeepSeekX , 做了 DeepSeek 适配 deepseek 值得入手吗 看到 DeepSeek 开始做 Harness 相关的招聘了 Deekseek 疑似爆出一个 bug!可能是 P0 级的顶级安全事故 DeepSeek v4 接 VSCode 专家模式不能上传附件了? deepseek pro 感觉很便宜 但是好慢啊 有什么优化办法 为何 deepseek-v4-flash 思考过程都是英文 现在 deepseek 模型接什么工具编程最好用? 有 V 友尝试 DeepSeek-TUI 那个项目吗?效果怎么样? 随机抽取 DeepSeek 官网的专家模式不可用了, 不知道是在升级还是在修复? 快速模式也基本不可用了. 我感觉 deepseek v4 flash 不如 deepseek v3.2? deepseek 出问题了? DeepSeek 网页端聊天必须要登录才能使用了 deepseek-v4-flash 好像没大家说的这么智能啊? 是我的错觉吗?Deepseek V4 Token 消耗量异常的高 deepseek 识图模式真的蛮怪的 - V2EX 大家觉得 deepseek 4.0 pro 搓代码能力怎样? deepseek 多模态的识图模式有人试过没 没有人比咱更懂开源「搞笑贴」 deepseek 要有识图模式了 DeepSeek 的历史记录不能搜索吗?还是我没找到 - V2EX DeepSeek V4 刚发布,我把它接入了我的本地 AI 科普视频生成框架 - V2EX Deepseek-v4-pro 限时优惠,开蹬~ - V2EX 说句冒犯的话, DeepSeek V4 Pro 让我有点破防! - V2EX DeepSeek 4 好贵啊,比 3.2 贵 12 倍。。。 - V2EX DeepSeek 4.0 额度给大家评测 - V2EX DeepSeek4 的数据没清理好啊,估计有得折腾 - V2EX deepseek v4 可以的, 即使是 flash 也比原来的 v3.2 在编码上强太多 - V2EX DeepSeek V4 终于出来了。。不知道强不强 - V2EX DeepSeek V4 价格有了 - V2EX Deepseek V4 已上传 huggingface,终于发布了。 - V2EX DeepSeek V4 这次是真来了 - V2EX 20260408 DeekSeek 姗姗来迟的专家模式居然不支持上传附件 大语言模型长上下文的坑 Deepseek 更新了? 做 llm 算法的 V 友如何看待 DeepSeek 的 Engram [分享] 撸了一个全自动微信公众号发文 Workflow(n8n + DeepSeek + Gemini),顺便开源了 mdnice 转换工具
为什么 deepseek 的源代码只有几个文件?
cpalead · 2026-03-28 · via deepseek

1. generate.py 描述了数据/权重文件怎么加载的.
2. model.py,尤其 Transformer 类描述了模型结构/层等怎么构成的信息.
3. kernel.py 描述了 2 里用到的一些核心自定义算子.

给你 2+1 类似与给了头文件声明和.so 文件.

开源的是这个.h.

4. 更接近一些你理解的开源的是有些会提供 finetune.py,做微调的.
这个会告诉你一部分真实完整训练场景下,input/训练数据大概长什么样.
理论上,你有可能根据这个数据格式,去完整重新训练一个等价模型,前提是有对应的硬件资源.

但,通常来说 fintune.py 暴露的信息是不够的.
之所以叫微调,也就是因为它只是一部分 input 长这样.

你可以看看 olmo 的 train.py,比较符合你的对开源的想法.
属于一个端到端,理论上你有硬件条件就可以从 repo 完整复刻的开源形态.
https://github.com/allenai/OLMo/blob/main/scripts/train.py

你说 1/2/4 够不够.
也不能说不够吧.

但 pretrain 的 datasource 直觉上还是很影响跟模型交互的语言/prompt 风格的.