惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

D
Docker
Microsoft Azure Blog
Microsoft Azure Blog
云风的 BLOG
云风的 BLOG
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
L
LangChain Blog
P
Privacy & Cybersecurity Law Blog
Hugging Face - Blog
Hugging Face - Blog
C
CXSECURITY Database RSS Feed - CXSecurity.com
大猫的无限游戏
大猫的无限游戏
Cyberwarzone
Cyberwarzone
The Register - Security
The Register - Security
Stack Overflow Blog
Stack Overflow Blog
A
Arctic Wolf
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
T
Threatpost
The GitHub Blog
The GitHub Blog
P
Privacy International News Feed
WordPress大学
WordPress大学
U
Unit 42
S
Securelist
T
The Exploit Database - CXSecurity.com
C
Cyber Attacks, Cyber Crime and Cyber Security
P
Proofpoint News Feed
Latest news
Latest news
Hacker News: Ask HN
Hacker News: Ask HN
小众软件
小众软件
Know Your Adversary
Know Your Adversary
The Cloudflare Blog
V
Vulnerabilities – Threatpost
The Hacker News
The Hacker News
Scott Helme
Scott Helme
有赞技术团队
有赞技术团队
Security Latest
Security Latest
Google DeepMind News
Google DeepMind News
Application and Cybersecurity Blog
Application and Cybersecurity Blog
Simon Willison's Weblog
Simon Willison's Weblog
博客园 - Franky
Y
Y Combinator Blog
博客园 - 叶小钗
Security Archives - TechRepublic
Security Archives - TechRepublic
Google DeepMind News
Google DeepMind News
N
Netflix TechBlog - Medium
S
Secure Thoughts
T
Threat Research - Cisco Blogs
aimingoo的专栏
aimingoo的专栏
S
SegmentFault 最新的问题
Microsoft Security Blog
Microsoft Security Blog
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
博客园 - 司徒正美
M
MIT News - Artificial intelligence

Local LLM

本地部署 GLM-5.2 的门槛太高了,根本玩不起! - V2EX 开源了一个 LLM 推理服务监控面板 - V2EX 大模型小白推荐一下本地模型 - V2EX GLM5.2 个人感觉有点被吹大了 - V2EX 有支持 6000 Ada 使用 deepseek v4 flash 推理 的框架吗 - V2EX 分享个自己在用的玩具 - V2EX 配置 kiro 的问题 - V2EX 买 macbook pro 笔记本,跑本地模型,怎么配置性价比比较高? - V2EX lama.cpp 目前有重大性能 bug: checkpoint 的巡回逻辑对于混合模型(比如 qwen3.6-27B)无效,从而导致大概率每次对话都要 prefill 全文,严重拖慢速度 GPU 跑 LLM 也会超频吗? DiffusionGemma Gemma4 12b 居然比 Qwen3.5 9b 还快,意料不到 什么? Apple Watch 也能本地跑 Qwen 了? 关于低算力 gpu 推理时 prefill 在总时长中的占比问题 现在大模型主流都用哪些 nVidia GPU? Mac book air M5 32G+1TB 能跑本地大模型? 需要购买国产显卡本地部署大模型,哪家的比较好 mac mini 跑本地模型,需要什么配置? Gemma4 12B 如何跑在 16G 显存上? mac 64g 能部署哪个本地大模型 消费级显卡(16G A 卡)是不是不适合运行 vllm 和 sglang,好像使用 transformer 推理都比这两个框架快,并且占用显存低 本地大模型最佳 Mac 配置选择 关于 5070ti 模型推理的速度和本地部署思考 有没有能够兼容 Win7 的离线模型工具 想折腾一个 AI 主机,请行家出手 锤子找钉子的项目分享:假想企业本地部署后不用人工洗库接入 llm 的中间层。 gemma4:31b-coding-mtp-bf16 有适合本地跑训练 AI 的电脑配置吗? - V2EX 都 2026 年了,为什么还有人觉得 AMD 比 Nvidia 更适合部署本地大模型? LiteChat 轻量级本地大模型聊天 WebUI,支持 vLLM DGX Spark、ASUS GX10、MSI EdgeXpert 看起来都像是一个母胎的产品,用起来有差别吗? 推荐一个 GPU 推理速度计算器, 可能方便买配件自建本地大模型的人用上 github 看到一个项目, 3090 跑 27B, 129tps,最高 207tps 请问各位大神,在隔离环境中,有本地 qwen 大模型,有没什么解决方案,做本地的知识库的方案,类似谷歌那个 notebooklm ,也勉强可以? 有一台 16 寸 m1max 64g+1T 满 GPU 的 MacBook Pro 适合部署哪个本地模型 - V2EX 私有化部署大模型的“终点”是 Mac 还是 Nvidia? 我自己的电脑是 5070Ti,总感觉跑一些模型算力不够 能一起给本地部署的开源模型做个适配的 coding agent 吗?我憋了口气 用 antirez 的 llama.cpp fork 把 DeepSeek v4 Flash 在本地跑起来了 全球本地部署开发者们一起,打造一个真正属于开源社区的 Coding Agent 了 自己做了一款在线 GPU 推理速度计算器 · TPS Calculator qwen3.6 27b 本地编码测试 xllm 真的比 vllm+plugin 性能好么? 各位推荐一个 32G Macbook air M5 可以跑的 moe 模型 我的开源项目,欢迎大家使用和批评,本地无字典字符型模型训练架构代码完全开源,可形成语义结构 请教一个关于模型训练主机配置的问题 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现 大伙有想过二次训练吗? 用 DGX Spark 做这些事情,是否能力合适/足够,有佬能解答吗?(估算也行) - V2EX 多台 GPU 之间怎么组网互联? 部署本地模型 token 输出万能公式 有没有简单版的 new-api 项目 想在本地部署 OCR 服务,解析美团的外卖订单截图,求推荐一个好用的 OCR 模型 本地部署靠不靠谱? - V2EX 为什么你该停止使用 Ollama - V2EX 本地大模型多大显存够用? 求可靠本地 vibe coding,有八卡的 L20 服务器 - V2EX 想掏一台 Mac mini M4 Pro 64G 跑 gemma4 31b Q4 接 openclaw 处理日常的问题,有人测试过速度吗? - V2EX 32B 本地 vibe coding 有能用的模型吗 - V2EX Gemma4 + LiteRT-LM 真得有点的东西, e2b 内存仅 2G 左右占用, 在 天玑 的安卓机上跑的飞快. - V2EX 闲置 16GB M1 Pro MBP 跑大模型 - V2EX 有人用 mac studio 测试过 gemma4 31b 16 吗 - V2EX gemma4:e4b 的效果出乎意料, 1050ti 也能很好的生成文章 - V2EX 谷歌的 Gemma 4 怎么样,有必须要本地弄一下吗 - V2EX 2 年以后的硬件和本地大模型 - V2EX 为什么 Qwen 吹这么牛,但是用起来体验这么拉啊,它的真实能力究竟怎么样 - V2EX Gemma 4 31B 大概什么水平,本地部署是不是又成为现实了 - V2EX qwen 本地大模型的问题 - V2EX 好奇有没有人用本地模型写代码? macbook 32G 内存, M5 芯片本地跑大模型有推荐的吗? - V2EX 本地部署 deepseek 70B,回答乱码 - V2EX 3090 跑文本向量模型可以么? 3090 是不是有点过剩? 家用机带宽太小玩不转 local llm 啊 想部署本地大模型来分析股票趋势,有没有专门针对股票的大模型? - V2EX minimax 挂了?? qwen3.5 过度思考的问题 [求助] DGX Spark 上 Ollama 推理极慢,改用 llama.cpp 部署是否更合适? 如何在 vs code 上应用自建的 ollama 模型 现在能本地部署最好的 TTS 是哪套, 太多了,没法都去试 本地 8G RTX4060 破卡,可以产多少 tokens? 如何在内网使用 opencode Qwen3.5-35B-A3B microgpt.py 30B 尺寸哪个小模型编码能力会好一些 ClawdBot 保姆级安装指南:从零搭建你的 24/7 私人 AI 助手 [求助] 求成本可控,性能过关的本地 vibe coding 方案 个人玩 ai,显卡最低起步是 5080 嘛? 现在还有类似 nextchat 这样的 web 工具可以用自定义 api 使用的吗? 3070RTX 32GB i9 内存 1TB 的游戏本 推荐用来跑什么 AI 工具呢? - V2EX 本地大模型目前意义大吗? 寻找本地搭建方案有偿 讨论下自建内网 RAG 知识库和 AGENT 平台 使用 Nexa 提供的 SDK 在手机上运行端侧大模型 想问问大家有没有搭建本地的 LLM,我对应用场景挺困惑的 想学习下大模型,有什么论文网站推荐吗 Q: 关于读大部头 PDF 和 Mac Mini M4 能做的事情有些问题? 目前开源可以本地部署的模型有哪些? V 友们,有没有推荐的本地台式机文生图的方案?
intel b60 48G 可以买吗 - V2EX
after1990s · 2026-01-15 · via Local LLM
vvhhaaattt

3

vvhhaaattt      1 月 15 日 via Android

llama.cpp 看你的模型要求了,如果经常试新模型,新模型又用了新的算子……
gpt-oss 为例
sycl 版本 12 月中旬的时候我记得是不能跑还是很慢,因为有算子不支持,会把相关操作退化为 cpu 操作,最近看有 issue 处理,不清楚现状。
valkan 版本能跑,推理速度能用的程度,算子支持速度还行,不过相对 sycl 有折扣。

@after1990s