惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Project Zero
Project Zero
WordPress大学
WordPress大学
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
V
Visual Studio Blog
爱范儿
爱范儿
P
Proofpoint News Feed
F
Fortinet All Blogs
雷峰网
雷峰网
小众软件
小众软件
Jina AI
Jina AI
人人都是产品经理
人人都是产品经理
TaoSecurity Blog
TaoSecurity Blog
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
S
Secure Thoughts
Recent Commits to openclaw:main
Recent Commits to openclaw:main
博客园 - 司徒正美
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Microsoft Azure Blog
Microsoft Azure Blog
IT之家
IT之家
S
Security @ Cisco Blogs
Help Net Security
Help Net Security
GbyAI
GbyAI
Webroot Blog
Webroot Blog
T
Troy Hunt's Blog
B
Blog
MongoDB | Blog
MongoDB | Blog
月光博客
月光博客
H
Heimdal Security Blog
Google Online Security Blog
Google Online Security Blog
S
Security Affairs
云风的 BLOG
云风的 BLOG
Engineering at Meta
Engineering at Meta
www.infosecurity-magazine.com
www.infosecurity-magazine.com
H
Help Net Security
O
OpenAI News
H
Hacker News: Front Page
博客园 - 叶小钗
Last Week in AI
Last Week in AI
S
Schneier on Security
The Last Watchdog
The Last Watchdog
C
Cyber Attacks, Cyber Crime and Cyber Security
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
MyScale Blog
MyScale Blog
Recorded Future
Recorded Future
博客园 - 【当耐特】
V
Vulnerabilities – Threatpost
大猫的无限游戏
大猫的无限游戏
N
News | PayPal Newsroom
The Hacker News
The Hacker News
A
Arctic Wolf

Local LLM

本地部署 GLM-5.2 的门槛太高了,根本玩不起! - V2EX 开源了一个 LLM 推理服务监控面板 - V2EX 大模型小白推荐一下本地模型 - V2EX GLM5.2 个人感觉有点被吹大了 - V2EX 有支持 6000 Ada 使用 deepseek v4 flash 推理 的框架吗 - V2EX 分享个自己在用的玩具 - V2EX 配置 kiro 的问题 - V2EX 买 macbook pro 笔记本,跑本地模型,怎么配置性价比比较高? - V2EX lama.cpp 目前有重大性能 bug: checkpoint 的巡回逻辑对于混合模型(比如 qwen3.6-27B)无效,从而导致大概率每次对话都要 prefill 全文,严重拖慢速度 GPU 跑 LLM 也会超频吗? DiffusionGemma Gemma4 12b 居然比 Qwen3.5 9b 还快,意料不到 什么? Apple Watch 也能本地跑 Qwen 了? 关于低算力 gpu 推理时 prefill 在总时长中的占比问题 现在大模型主流都用哪些 nVidia GPU? Mac book air M5 32G+1TB 能跑本地大模型? 需要购买国产显卡本地部署大模型,哪家的比较好 mac mini 跑本地模型,需要什么配置? Gemma4 12B 如何跑在 16G 显存上? mac 64g 能部署哪个本地大模型 消费级显卡(16G A 卡)是不是不适合运行 vllm 和 sglang,好像使用 transformer 推理都比这两个框架快,并且占用显存低 本地大模型最佳 Mac 配置选择 关于 5070ti 模型推理的速度和本地部署思考 有没有能够兼容 Win7 的离线模型工具 想折腾一个 AI 主机,请行家出手 锤子找钉子的项目分享:假想企业本地部署后不用人工洗库接入 llm 的中间层。 gemma4:31b-coding-mtp-bf16 有适合本地跑训练 AI 的电脑配置吗? - V2EX 都 2026 年了,为什么还有人觉得 AMD 比 Nvidia 更适合部署本地大模型? LiteChat 轻量级本地大模型聊天 WebUI,支持 vLLM DGX Spark、ASUS GX10、MSI EdgeXpert 看起来都像是一个母胎的产品,用起来有差别吗? 推荐一个 GPU 推理速度计算器, 可能方便买配件自建本地大模型的人用上 github 看到一个项目, 3090 跑 27B, 129tps,最高 207tps 请问各位大神,在隔离环境中,有本地 qwen 大模型,有没什么解决方案,做本地的知识库的方案,类似谷歌那个 notebooklm ,也勉强可以? 有一台 16 寸 m1max 64g+1T 满 GPU 的 MacBook Pro 适合部署哪个本地模型 - V2EX 私有化部署大模型的“终点”是 Mac 还是 Nvidia? 我自己的电脑是 5070Ti,总感觉跑一些模型算力不够 能一起给本地部署的开源模型做个适配的 coding agent 吗?我憋了口气 用 antirez 的 llama.cpp fork 把 DeepSeek v4 Flash 在本地跑起来了 全球本地部署开发者们一起,打造一个真正属于开源社区的 Coding Agent 了 自己做了一款在线 GPU 推理速度计算器 · TPS Calculator qwen3.6 27b 本地编码测试 xllm 真的比 vllm+plugin 性能好么? 各位推荐一个 32G Macbook air M5 可以跑的 moe 模型 我的开源项目,欢迎大家使用和批评,本地无字典字符型模型训练架构代码完全开源,可形成语义结构 请教一个关于模型训练主机配置的问题 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现 大伙有想过二次训练吗? 多台 GPU 之间怎么组网互联? 部署本地模型 token 输出万能公式 有没有简单版的 new-api 项目 想在本地部署 OCR 服务,解析美团的外卖订单截图,求推荐一个好用的 OCR 模型 本地部署靠不靠谱? - V2EX 为什么你该停止使用 Ollama - V2EX 本地大模型多大显存够用? 求可靠本地 vibe coding,有八卡的 L20 服务器 - V2EX 想掏一台 Mac mini M4 Pro 64G 跑 gemma4 31b Q4 接 openclaw 处理日常的问题,有人测试过速度吗? - V2EX 32B 本地 vibe coding 有能用的模型吗 - V2EX Gemma4 + LiteRT-LM 真得有点的东西, e2b 内存仅 2G 左右占用, 在 天玑 的安卓机上跑的飞快. - V2EX 闲置 16GB M1 Pro MBP 跑大模型 - V2EX 有人用 mac studio 测试过 gemma4 31b 16 吗 - V2EX gemma4:e4b 的效果出乎意料, 1050ti 也能很好的生成文章 - V2EX 谷歌的 Gemma 4 怎么样,有必须要本地弄一下吗 - V2EX 2 年以后的硬件和本地大模型 - V2EX 为什么 Qwen 吹这么牛,但是用起来体验这么拉啊,它的真实能力究竟怎么样 - V2EX Gemma 4 31B 大概什么水平,本地部署是不是又成为现实了 - V2EX qwen 本地大模型的问题 - V2EX 好奇有没有人用本地模型写代码? macbook 32G 内存, M5 芯片本地跑大模型有推荐的吗? - V2EX 本地部署 deepseek 70B,回答乱码 - V2EX 3090 跑文本向量模型可以么? 3090 是不是有点过剩? 家用机带宽太小玩不转 local llm 啊 想部署本地大模型来分析股票趋势,有没有专门针对股票的大模型? - V2EX minimax 挂了?? qwen3.5 过度思考的问题 [求助] DGX Spark 上 Ollama 推理极慢,改用 llama.cpp 部署是否更合适? 如何在 vs code 上应用自建的 ollama 模型 现在能本地部署最好的 TTS 是哪套, 太多了,没法都去试 本地 8G RTX4060 破卡,可以产多少 tokens? 如何在内网使用 opencode Qwen3.5-35B-A3B microgpt.py 30B 尺寸哪个小模型编码能力会好一些 ClawdBot 保姆级安装指南:从零搭建你的 24/7 私人 AI 助手 [求助] 求成本可控,性能过关的本地 vibe coding 方案 个人玩 ai,显卡最低起步是 5080 嘛? intel b60 48G 可以买吗 - V2EX 现在还有类似 nextchat 这样的 web 工具可以用自定义 api 使用的吗? 3070RTX 32GB i9 内存 1TB 的游戏本 推荐用来跑什么 AI 工具呢? - V2EX 本地大模型目前意义大吗? 寻找本地搭建方案有偿 讨论下自建内网 RAG 知识库和 AGENT 平台 使用 Nexa 提供的 SDK 在手机上运行端侧大模型 想问问大家有没有搭建本地的 LLM,我对应用场景挺困惑的 想学习下大模型,有什么论文网站推荐吗 Q: 关于读大部头 PDF 和 Mac Mini M4 能做的事情有些问题? 目前开源可以本地部署的模型有哪些? V 友们,有没有推荐的本地台式机文生图的方案?
用 DGX Spark 做这些事情,是否能力合适/足够,有佬能解答吗?(估算也行) - V2EX
qazwsxkevin · 2026-04-22 · via Local LLM

这是一个创建于 53 天前的主题,其中的信息可能已经有所发展或是发生改变。

这东西我都没见过实物,在 USA 的同学有一台,但是他上线后应用的事情都快拉爆了,暂时没空测我的想法,只能想象着来问一下这里各位佬了:

  • C++,Python 的代码 review;
  • 根据提示词,处理 MySQL 返回来 8k~13k 条已成 JSON 的数据提取;(字段和内容不多,爆不了上下文)
  • 给出初高中的数学物理,某题的解题思路;
    需求就这三类事情为主。

问题:

  • DGX Spark 128G 跑个什么模型能应付以上三类强度的事情?
  • 如果有合适(或者将就)应付的模型,90%额定容量的上下文打进去,要多久时间有反应开始出 tokens?
  • 每秒能吐多少 tokens?

考虑:

  • 场地空间和物理条件所限,只能找这类小机.
  • 可以考虑 Mac Studio M3U 256G,再新款的加钱也不好买,也贵.

  • dgx
  • 能力
  • 模型

    6 条回复    2026-04-25 17:06:32 +08:00

    garyalen

    1

    garyalen      4 月 22 日 via iPhone   ❤️ 1

    最多跑 100b 左右的 moe 模型 tps 约 40 左右 不快不慢

    qazwsxkevin

    4

    qazwsxkevin      4 月 23 日

    @coefu 嗯嗯,我在大佬另外一个帖子下面咨询了他,估计他也不清楚,没时间琢磨了,我自己也有想法等 M5Ultra 出来看看情况...

    babymonster

    5

    babymonster      4 月 23 日

    这个可以玩的有很多呀,文生图,文生视频,Comfy UI ,ASR ,TTS ,OCR 等等这些都是可以玩的。但是这些部署过程就会很繁琐,我看有一款产品跟这个差不多,叫懒猫微服,他们有工程师 7×18 小时在线服务,这一点还是挺好的,不知道有没有评论区大佬来看看