惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

C
Comments on: Blog
GbyAI
GbyAI
B
Blog RSS Feed
Microsoft Security Blog
Microsoft Security Blog
罗磊的独立博客
人人都是产品经理
人人都是产品经理
F
Full Disclosure
IT之家
IT之家
Know Your Adversary
Know Your Adversary
Engineering at Meta
Engineering at Meta
K
Kaspersky official blog
T
Tor Project blog
V
Visual Studio Blog
S
SegmentFault 最新的问题
P
Proofpoint News Feed
V
Vulnerabilities – Threatpost
T
True Tiger Recordings
H
Hackread – Cybersecurity News, Data Breaches, AI and More
The Hacker News
The Hacker News
MyScale Blog
MyScale Blog
Latest news
Latest news
Blog — PlanetScale
Blog — PlanetScale
Cyberwarzone
Cyberwarzone
Stack Overflow Blog
Stack Overflow Blog
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Apple Machine Learning Research
Apple Machine Learning Research
Project Zero
Project Zero
AWS News Blog
AWS News Blog
Martin Fowler
Martin Fowler
F
Fox-IT International blog
C
CXSECURITY Database RSS Feed - CXSecurity.com
Scott Helme
Scott Helme
C
Check Point Blog
博客园 - Franky
P
Proofpoint News Feed
S
Securelist
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
U
Unit 42
P
Privacy & Cybersecurity Law Blog
NISL@THU
NISL@THU
T
The Blog of Author Tim Ferriss
Google DeepMind News
Google DeepMind News
D
Docker
Hacker News - Newest:
Hacker News - Newest: "LLM"
WordPress大学
WordPress大学
李成银的技术随笔
A
Arctic Wolf
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
S
Schneier on Security
N
Netflix TechBlog - Medium

V2EX

[推广]赞 AI 中转站开业啦 V 友们求推荐显示器用于新房间要求经济实惠 我有一个古早搬瓦工服务器,现在一直续费,请问这个费用现在合适么。 Claude MAX20 满血福利地板价上线。不赚钱,交个朋友 远程 AI 后端工程师 30-50k [站点状态] 20260526 - 关于已经修复的 404 bug 的具体原因 [问与答] 当前 ChatGPT 充值套餐比较推荐的方式有哪些? 32 岁的 Gap:焦虑、面试,以及一些理念 [北京] 求餐饮发票,有偿. [推广] 我们做了一个 openclaw+hermes 结合体客户端! [站点状态] 20260526 - 大于某个 ID 的主题全部出现 404 跳转的问题 [硬件] 您画电路板时候还在手动画封装吗?试试我做的最新的免费开源 agent [推广] pointfixAPI: API 中转站,评论区留 ID 送额度 绝对纯血 御三家模型全都有 [FK Claude] Claude 折扣中转站 [问与答] 海外 AI 工具支付问题 [全球工单系统] 现在知乎都直接访问本地了么 [分享发现] V2EX 这次部分帖子 404 ,对 github.com/mskatoni/v2ex-safe-reading-helper 运行毫无影响,接着奏乐接着舞 [分享创造] Make X Great Again: 开源、AI 驱动的 X (Twitter) 反 Spam Chrome 插件 [职场话题] 11 年+ICT 原厂售后转产品经理,求大佬指点 [问与答] 哪个国产 coding/token plan 支持个人账户开单位发票 [酷工作] 新用户|pointfixAPI 免费额度等你来拿 注册送站内试用额度 想请各位大佬测试体验一下 [分享创造] ScrollShot: 目前 iOS 上可能是实力颜值最当担的长截图应用 卖自家产茶叶,评论抽奖 [分享发现] 2026 年好用的在线工具网站 [分享创造] 做了一个给 Claude Code / Cursor / Agent 用的多模型 API 网关, OpenClaw 能接 Opus,想找开发者试用反馈 [分享创造] [送码] 维护了快一年的会员订阅管理工具 — 口袋订阅,最近大幅优化了一版本 [分享创造] 搞个 AI 寄生产品,不知道有没有同好。 [推广] [海外投资] 嘉信券商开户教程第一期|全套大陆资料手把手教学,身份证即可开户, W-8BEN 签署全流程 [分享创造] 分享平行人生的维基网站 [OpenAI] 是我的能力限制了 Claude Code [推广] 我们做了一个 openclaw+hermes 结合体客户端! [V2EX] V 站 bug?没有评论的主题全部 404 [酷工作] [深圳·内推] CWILL 畅销家:产品经理 / Golang / 运维 / AI 解决方案 PM / 英文 SEO [分享创造] 网站 404,没办法了,只能上链接了: https://www.miaotui.cc/ [分享创造] AI 有所能有所不能,服务端渲染/Spa 之 GooseForum 又经过一年的迭代感慨(前端兜兜转转的技术选择) [无人机] 无人机机长证已经下来了,下一步就是考无人机教员 [分享发现] 你们谁家的娃看数字积木吗,最近有个小游戏 [V2EX] 新手机在 play 下载了几个客户端,都出现了 404,我以为下载的不对或者节点出问题了,结果是网站问题 FT [程序员] Codex 额度又超了,找人体验我的 VibeCoding 网站 [分享发现] 社交媒体自动获客工具,小红书/抖音精准引流 [分享发现] 这两年帮家里老人看手机,我越来越害怕各种“自动续费”了 [问与答] 你们开发是怎么清理垃圾的? C 盘被 AI 搞得只剩几十 GB 了 [分享创造] 临时需要 Android 环境时,你们会先买备用机还是先验证流程? [分享创造] claude-top — 终端实时监控 Claude Code / Codex CLI 的成本和用量 最终,我还是买了 iPhone air [分享创造] 分析了 Browser MCP、CodeX、Kimi WebBridge 后,我做了一个增强版的开源 AI Agent 浏览器控制实现 [分享发现] 404 时期可以用标题交流,有需要的朋友可以访问 /recent 看看最新主题(帖子),/chanegs 看看最新回复 [求职] [求职] 6 年开发,在线求捞 [酷工作] 语音 Post-Training 算法工程师 AI 怎么老说要不明天做?要不说今天太晚了?怎么办 [吐槽] edge 的空白页内容卡片恶心人 [反馈] Livid 发布的最后一条帖子是介绍对话功能的(v2ex.com/t/1215364),他这会应该还在睡觉 [反馈] 楼上的,站长发的帖在哪?想看看原因。 [分享创造] 做了一个支持嗅探下载、YT-DLP 和在线音乐播放的桌面工具: XiaDown / 下蛋 [程序员] 小程序中充值余额,用于打车时支付使用,属于微信的虚拟支付嘛? [计算机] 如果 100w 等于 100 台电脑 [问与答] 大家有没有 chaptgpt 充值或者订阅的相关发票,可以提供一下给我(有偿) [问与答] 大佬 注册 chatgpt,有遇到过这个问题的吗 [问与答] 别发新帖了,点又点不进去,全是 404! [Android] 一个高性能的 Wireguard Android 开源客户端 [V2EX] 最新的帖子点不开了,包括我这个,不信你试试 开发了一个自用的 PDF 发票合并工具 给大家推荐一个 DataAgent 产品,欢迎拍砖 创意节点的所有帖子都会提示 404 Not Found Topic [北京/杭州][内推] 字节跳动-财经服务架构-AI 应用开发工程师 [程序员] Claude/ ChatGPT 为什么不给对话加个目录? 可以开发哪些有趣的小工具小网站小项目?灵感匮乏了 好消息,发贴 404 原因找到了,站长发帖子描述了详情,坏消息,站长发的帖子点击去也是 404,手动狗头 [分享创造] 开发了一个坦克大乱斗网页游戏 [V2EX] 🤐 [问与答] 不懂就问.为什么一堆主题 404 FakeVibeCode.com 一个假装你正在 vibecoding 的网站 [反馈] 好多帖子 404 啦,好像是新帖子 0 回复基本都是 404 [V2EX] 怎么现在点啥帖子都是 404 [分享创造] 做了一个免费的图片文件托管网站 [问与答] 刚才发了个分享帖,结果刚提交完就 404,有点懵。 [Google] 实测部分场景,谷歌 Omni 可以平替 seedance2 [投资] 又中了一个港股 [程序员] 请问下目前哪个区订阅 chatgpt plus 会便宜点啊,目前是土区 plus [问与答] v2 上今天有好的访问直接 404 是怎么回事 [OpenWrt] 有 M.2 接口, 2230 规格,但是可以驱动,固件层面魔改,实现多 AP 的无线 wifi 网卡吗? 虚心请教 tiktok 创作者奖励计划相关问题 [反馈] 404 的帖子当然都入库了,不然怎么能在首页列表中看到帖子呢 [反馈] 这里是程序员的天堂啊,我不是程序员 [问与答] V 站 bug 了吧 最近的帖子全部 404 了 @vivid 很多 404 帖子.... 网站出 bug 了 [大学] 耿同学也太勇了 kevlar-4u,让我收获了人生第一个 Fork ✌️ [Apple] testflight 微信读书同步、本地图书管理员和多模型切换 [问与答] 我之前发的一个关于流量卡的帖子为什么 404 了 VibeCoding 了个 无需后台服务的 Windows 极简仿伙墙 netblock [反馈] 这个时间点站长那边估计是凌晨吧?距离修复估计还需要些时间 [反馈] 我看有些新贴子是有回复的,是不是某些插件或者第三方客户端能绕过限制?它们是不是直接调用了 api ? [分享创造] 我把 Android 爆改成了小型服务器 [前端开发] 新用户福利|pointfixAPI 免费 10 刀额度等你来拿 注册送站内试用额度 想请各位大佬测试体验一下 [反馈] /api/topics/show.json?id=xx 通道对于没回复的帖子不是 404,是可用的,所以数据库没啥事,正文都正常进数据库了,可能 rewrite 有点 bug 这算不算鉴别中转站掺水? [华为] 公司给我弄了一个华为开发者大会的门票,有去过的同学能给些参观的建议吗? [反馈] 站长在哪里呀, 也不来修 bug [酷工作] [杭州][招人] Java 开发工程师(直播 / 财务方向)
想折腾一个 AI 主机,请行家出手
davidyin · 2026-05-10 · via V2EX

打算自组一 AI 主机,用于本地 llm 。 可用于 kiro IDE 的,gitlab duo 。

可行性有多大,能否代替订阅的那些 ai 服务?

配置有没有推荐的,各 AI 行家请出手相助。

第 1 条附言  ·  16 天前

第 2 条附言  ·  15 天前

算是成功劝退我了。

但还是埋着一颗 self hosting 的心。
等着看大量二手 ai 机器出来的时候再说。

第 3 条附言  ·  14 天前

刚知道,大女儿的同学给她一张旧显卡 rx6800 xt 16g
目前就考虑等回家(要一个月后才回家)先用这个试试看,能到什麽程度。

据 copilot 的说法,下面这些可行:
✔ Ask (轻量、快)
- Qwen2.5 7B Instruct
- Llama 3.1 8B Instruct

✔ Plan (中型项目)
- Qwen2.5 14B Instruct ( Q4 )
- Llama 3.1 13B Instruct ( Q4 )

✔ Agent (工具调用)
- Qwen2.5 Coder 7B (首选)
- Qwen2.5 Coder 14B ( Q4 )

  • AI
  • 主机
  • 本地

    80 条回复    2026-05-14 00:01:22 +08:00

    qfdk

    1

    qfdk  

    PRO

       16 天前 via iPhone

    看了明矾系列的 到现在没下手... 要不要等等 mac mini ? 说不定有新科技? 本来打算买 m4 , 后来一拉配置,直接充 cc 了. 我 m1 跑 llm 吐字都不如我打的快... 也这里蹲一个吧

    qfdk

    2

    qfdk  

    PRO

       16 天前 via iPhone

    看了明矾系列的 到现在没下手... 要不要等等 mac mini ? 说不定有新科技? 本来打算买 m4 , 后来一拉配置,直接充 cc 了. 我 m1 跑 llm 吐字都不如我打的快... 也这里蹲一个吧

    yusf

    3

    yusf      16 天前

    老老实实买用 api 吧

    davidyin

    4

    davidyin  

    OP

       16 天前 via Android

    @yusf
    订阅很方便,只是有洁癖,不想自己的东西暴露到外面。

    希望都在局域网内。

    davidyin

    6

    davidyin  

    OP

       16 天前 via Android

    @yusf

    Mac 不考虑。基本没有用苹果的产品。
    对于性价比敏感。

    davidyin

    7

    davidyin  

    OP

       16 天前 via Android

    现在有个初步的配置清单:
    RTX 4070 SUPER 12GB
    Intel i5 14600K
    Asus TUF B760
    DDR5 32GB(2*16gb)
    SSD 1TBx2
    看看合适吗?

    AastroLula

    8

    AastroLula      16 天前   ❤️ 2

    还是考虑买 api 吧,当然实在有钱可以折腾玩玩,如果 op 是需要正式干活可能 anthropic 博客里提的用聪明的大模型指导小模型是个算是能用的方案,但是这块一来需要折腾很久,二来还是得买外面的 api. 我之前也是想搞本地大模型折腾玩玩,后来发现纯粹是垃圾佬的馋瘾上来了,再说现在啥都涨价的买了也是大冤种,如果 op 想买 aimax 395 算是个选择吧,当然有特殊需求部署几 b 模型能用上也是好事,12g 显存骗骗哥们还行,别把自己骗了,以上是我的一点想法

    ntedshen

    10

    ntedshen      16 天前   ❤️ 2

    降价期间屯硬件,那 bro 你很勇哦(

    4070s 有没有 4060ti 好使我不知道。。。
    但是 14600k 和 d5 的意义在哪?

    davidyin

    12

    davidyin  

    OP

       16 天前 via Android

    @Livid
    这个超出预算了。就我的使用情况,估计太大才小用了。

    @AastroLula
    订阅过 kiro 的那些模型。挺好用,只是不想把自己丑陋的代码上传上去,才想着全部在本地。
    是啊,配件涨价太多。的确有些下不去手。

    @ntedshen
    Intel CPU 和 DDR5 是也不是一定,你有好的建议欢迎提出来。

    @devzhangyu
    谢谢推荐,我去看看。

    viskem

    14

    viskem      16 天前

    64G M4 MacMini 循环跑 DeepSeek V4 Pro 中,MLX 31B 27B 啥的放那一堆 都停用了。
    是的,不如买个 AIR ,走到哪 Vibe 到哪……

    luodan

    15

    luodan      16 天前

    就看显存大小,其它可以全部忽略。要么独立显卡,要么统一内存。

    gtchan13579

    17

    gtchan13579      16 天前

    Intel Arch B50 16G
    铭瑄 H610I
    Ultra 230F
    DDR5 5600 16G*2
    差不多就可以了

    zzutmebwd

    19

    zzutmebwd      16 天前 via Android   ❤️ 4

    5 万以内无法替代 minimax deepseek-v4-flash 这种比较蠢的国产,20 万以内无法代替 glm 这种比较比较聪明的国产,无论花多少钱都无法达到 gpt5.5 和 opus4.7 这种顶尖的。
    如果你的厌蠢症胜过受迫害妄想症,用订阅。

    bzw875

    20

    bzw875      16 天前

    除了为了学习本地训练 AI ,买大显存电脑用来推理的都不是划算。就和买 deepseek 一体机一样鸡肋

    restkhz

    21

    restkhz      16 天前   ❤️ 4

    @davidyin 我不专业,但是有些经验你可以参考:

    12G 显存太小了,完全完全地不推荐。小的模型完全能跑,甚至跑挺快,但模型本身太小鸡肋无用,能做点事的模型至少 30B 左右。哪怕 Q4 了你 12G 也跑不动。我有一个 3060 ,12G 显存,算力带宽都没问题但是生产力相关的基本什么都跑不了。

    另外 UMA 带宽小的要谨慎。比如 AI MAX 395 ,我有一台,请谨慎考虑。用 Qwen3.6 35B 那些 MoE 模型倒是挺好,密集模型速度很慢,比如 Qwen3.6 27B ,不错的模型,但是跑推理大概 10t/s 不到,非常缓慢。不知道未来上 MTP 或者投机解码会不会有一点改善,最近 llama.cpp 有但是貌似还没进主线。另外在 395 上 Q4,Q5 的 Qwen3.5 122B 倒也不是不能跑,但是经常让我觉得不如高精度的 Qwen3.6 35B 。

    还有 AI MAX 395 跑 ComfyUI 那些扩散模型玩 AIGC 也不快,能跑是都能跑,就是太慢。跑 LTX-2.3 生成 5 秒视频用了 15 分钟。这机器内存大很多东西都能跑,但问题是很多东西跑不快...

    精度也很重要,我不觉得 Q4 量化真的好用。能跑归能跑,但是回答模棱两可,幻觉多,不建议用于生产。为了生产有条件建议 Q6 起步。

    说到底还是建议直接 VRAM 直接 32G 起步吧。首先关注 VRAM,其次关注带宽。24G 可以是 ComfyUI 玩得舒服,但是你要跑编码我真不建议。
    如果没这个预算建议买 API,剩下钱理财。说不定还能再赚点,过一年再看看模型能力提高,硬件会不会降价。不然你的钱就是打水漂的。

    我只是踩过坑,请你千万不要对 20G 以下 VRAM 抱有任何不切实际的幻想。甚至我上文提到的那些模型生产力在 claude, gemini 和 chatGPT 面前也不是一个档次的。只是说,它具备这个能力罢了。
    我是之前有搞信息安全上的需要,我不得不用 abliterated 模型才搞的...

    csunny

    22

    csunny      16 天前

    5060ti 16G + 32G ddr5 跑 qwen3.6 35B Q5 。llama.cpp 速度大概 56/s 。

    2000wcw

    24

    2000wcw      16 天前

    为啥大家都不支持 PO 主?我倒觉得应该大力支持一下,然后 PO 主真金白银花了后说一下实际感受,这样我们才好避坑。

    bytesfold

    25

    bytesfold      16 天前 via iPhone

    我的建议直接 rtx pro 6000 ,不好用直接出掉

    frankies

    26

    frankies      16 天前

    @davidyin #7 4070 部署不了大模型,部署量化后的阉割模型也费劲,推理慢不说还智障。提升不了预算就用 api ,钱包会告诉你并不洁癖

    cin

    27

    cin      16 天前   ❤️ 1

    你的这个"初步的配置清单"能跑起来的模型大概有 gemma4:e4b gemma-3-12b qwen3.5-9b 之类的,先建议找个对应的 api 尝试下
    另外 24GB/32GB 显存能跑的模型: qwen3.6:27b gemma4:31b

    tcper

    28

    tcper      16 天前

    如果你真想跑 LLM ,显存顶到最高就行,不过就怕又来一句,也想玩玩 3A 游戏

    whusnoopy

    29

    whusnoopy      16 天前

    1. 预算多少?上可到 512G 的 M3 Ultra 的 Mac Studio ,或 128G 的 nVidia DGX Spark
    2. 是否专用用途,还是日常还可娱乐游戏?专用用途的话就可以不在乎必须 Windows 或 NV 的游戏卡,日常还要娱乐游戏那就要选大显存的游戏卡了
    3. 性能期望?要能跑大参数模型,就得显存大,这时候 Mac 这样的统一内存就有优势,但速度可能不行。要速度可能就得 NV 的游戏卡或专业卡,但显存可能不够大,不够加载更大参数的模型

    zls3201

    30

    zls3201      16 天前

    @davidyin cpu 高了 显卡我觉得 5060ti 16G 可能比你这个好

    我最近看 reddit ,很多用 unsloth/Qwen3.6-35B-A3B 量化版本的,有内存 8g 都用起来的

    smlcgx

    31

    smlcgx      16 天前

    如果你玩本地推理的话,M3 ultra 确实是必备选项之一,电费账单是一笔隐藏开支,尤其是长期下来

    davidyin

    32

    davidyin  

    OP

       16 天前 via Android

    诸位快把我劝退了。

    @zzutmebwd
    没用过国产的。也只用过 kiro 订阅的几种。

    @bzw875
    不训练,只是推理。

    @restkhz
    你的经验非常有用,谢谢这么详细的回复。那就是 16g 显卡还是可以用用的意思喽?

    @2000wcw
    别这样,我很听劝的。本来也不是用来谋生,只是爱好者。

    @frankies
    也不是那么洁癖,主要担心一不小心把什麽密钥啊,API 溜出去。

    @cin
    这个建议好,我去试试。

    @tcper
    玩游戏也想过,不过我的 Xbox series x 也刚买不久。

    davidyin

    33

    davidyin  

    OP

       16 天前 via Android

    @whusnoopy
    目前的预算在两千美元,再多就感觉自己不配用这么贵的东西了。

    @smlcgx
    电费的话,应该不用二十四小时开机的话,还好吧。之前用过 r710 服务器,玩了一年,觉得厌了就出手了。

    uprit

    34

    uprit      16 天前   ❤️ 1

    显卡俺在用双卡 2080ti-22GB ,总共 44GB 显存,主机还是 1151 的老平台。可以跑 qwen3.6-27B-Q4KM ,256K 上下文,推理速度大概 20T/s

    alinwu05

    35

    alinwu05      16 天前 via Android

    不划算,机器便宜了,LLM 不够聪明,没有意义啊,请一个小学生干活当然便宜,但是干不了活也不中呀

    maolon

    36

    maolon      16 天前

    楼上提议的挺好的,
    另外 qwen3.6:27b gemma4:31b 像这个等级的模型只能算是可用,能拿来干些像是数据清洗,小代码库编程,或者是指令非常明确的 computer use 这种 agentic flow ,或者随便写点文案,性能大概相当于去年 100B 级别的模型

    跟现在的旗舰或者次旗舰模型还是差很远的(尤其是现在各家都开始往 1T 到几 T 的参数量发展),对本地模型的期望还是要明确的好

    Kevin2

    37

    Kevin2      16 天前 via Android

    同蹲方案,我也有这想法。另外再玩虚拟化系统,多开几个电脑玩

    Moonkin

    38

    Moonkin      16 天前 via Android

    @davidyin 12g 来搞笑的?臭打游戏的都看不上。3090 都比这强,显存直接觉得模型能不能用。32G 的改装卡/更大的走私卡如果不想要,那就 5090d ,或者 API 等 60 系。

    HojiOShi

    39

    HojiOShi      16 天前

    lz 这帖子提醒我一件事,我有一台双 A770 的机器吃灰有点久了,现在想再看看 LLM 性能提升了多少。

    ntedshen

    40

    ntedshen      16 天前

    @davidyin ddr4 目前是 ddr5 的半价,而且 14k 口碑并不怎么样。。。你可以在加钱或者减钱里面选(
    你不如抄个入门级学生打游戏配置单,然后显卡换自己的。。。

    tootfsg

    44

    tootfsg      16 天前 via Android

    @davidyin 用 12g 显存跑本地 llama.cpp ?这是真的吗,我 16g 显存都不够,像 26b 27b 这种 q4km 都 15,16g 了,1,2g 给上下文要极致压缩 kv 类型和特别低的上下文

    coefu

    45

    coefu      16 天前   ❤️ 1

    @davidyin #33 真正的行家来告诉你,2000$的方案。

    amd epyc 单路 9004 12 通道 ddr5 主板,目前大概 4000 。12 通道全插满 4800 MT/s DDR5 内存时,12 个通道的总带宽约为 500GB/s 以上。使用更高频率(如 6400 MT/s )的内存时,理论总带宽可达到约 614 GB/s 。几乎摸到了 hbm2 的边。关键是容量可伸缩。

    ddr5 6400 16G 目前单条价格大概 700*12 ,8400

    amd epyc 9124 cpu 目前大概 4000

    总成本正好 2000$ 左右。

    此时,你有 192G 内存( Qwen3.5-122B-A10B ,这种都能跑),带宽 500 ~ 614G 左右,500G 的带宽足够让你跑 MOE ,20 ~ 25 token/s ,再加一块几百块的 16G hbm2 gpu ,完全够。

    huaweii

    46

    huaweii      16 天前 via Android

    个人本地 llm 能做的事情和 vibe coding 两回事😅 性价比敏感还在这浪费钱呢,建议问一下 AI 一些基本的常识

    drafter

    48

    drafter      16 天前   ❤️ 1

    昨天刚买的主机 跟你一样,5060ti 16G 显存 +96G 内存,270kcpu ,场景家里主机挂着,公司电脑通过 tailScale 连接 跑 qwen3.6-35B-A3B ,开启思考模式会比较慢,跟官方 api 比,3 ~ 5 分钟吧,我后面把思考模型关了会快点,但是像一个小的项目用 claude 进行/init 要处理 10 多分钟,如果非编程 用 Lm studio 对话框对话很快 ,输出 40t/s ,还在研究怎么在 coding 下推理速度加快

    davidyin

    50

    davidyin  

    OP

       16 天前 via Android

    Gemini 得到的。
    我想还是问问活人更可靠,毕竟这里高手多。

    aklllw

    52

    aklllw      16 天前

    这个价位的跑起来的 AI...送我跑龙虾我都嫌弃
    大概就这个性价比吧,无意攻击,只是给个参考

    drafter

    53

    drafter      16 天前   ❤️ 1

    @davidyin 对的 https://benchlm.ai/coding 可以看这个模型 coding 能力排行榜,Qwen3.6-27B 排名 19 ,比很多的收费模型都强,但是这个量化版也要 24G 显存以上才行,4090 ,5090 太贵,3090 矿卡风险高,Qwen3.6-35B-A3B 排名 30 ,基本上觉得大多工作都能做,我上午开始试的,效果可以,至少做同样的事比 minimax 2.7 显得专业很多,还是稀疏模型,一些权重可以放内存里,但是推理慢,这个很关键,同样的问题 trae 里的 minimax 2.7 大该 1 分钟,这个模型我用 claude 大概 11 分钟。。。 反正未来 20B ,30B 模型 在消费级显卡上的效果应该会越来越好,可以观望下

    hao150

    54

    hao150      16 天前

    别买 A U 就对了,反正我现在这个 A U 带的 NPU ,买的时候说能力多好,实际用的时候没几个应用适配的。哪怕跑个视频转码都调不动 NPU

    pxlxh

    55

    pxlxh      16 天前

    你这个预算和你要求的隐私性本身就是矛盾的
    订阅就行了 无人在意

    smlcgx

    57

    smlcgx      16 天前   ❤️ 1

    @davidyin 其实最后还是落实到需求,看你是想玩一玩还是想作为生产力。前者的话随便一个主机和显存吃得下的 int 之类的模型就可以了,只是聪明程度差一些。后者你想作为 api 的替代,就要认真选型了,没个几万入场费就不要想了,这些钱还不如买个正规 api

    hanli

    58

    hanli      16 天前   ❤️ 1

    前面研究过这个问题,新配显卡的话显存至少考虑 24G 以上,不然模型效果都比较一般。现在用的 12G 的 3080ti ,都跑 QWEN Q4 量化模型,跑 27b 稠密架构的基本用不了,35b 的 moe 架构勉强能用下。

    sn0wdr1am

    59

    sn0wdr1am      16 天前

    劝退劝退。

    电费不要去,显卡不要钱。

    本地搭建根本不划算。

    cs8425

    60

    cs8425      16 天前   ❤️ 1

    刚好手上有 4070S 跟 9060xt, 最近也在尝试这块
    先说结论:
    12G 显存完全不够用
    16G 也只是勉强能动
    拿去辅助编程不是智商太低就是速度太慢
    要嘛买更好的卡, 不嘛就 api 算了

    我只测了 gemma-4-E2B Q4 、gemma-4-E4B Q4 跟 gemma-4-26B Q4 (MoE 类型)
    4070S 跑 E4B 没啥问题, 速度大概 90t/s, 26B 就完全不行了
    9060xt 跑 E4B 大概 60t/s, 26B 能动但最高只有 20t/s 通常在 15~19 之间
    用的是 llama.cpp, backend vulkan
    E4B 辅助编程错误很多, 要一直叫他修正
    26B 错误是少很多, 勉强算堪用吧, 但运行太慢, 结果最后总花费时间跟 E4B 多轮差不多....
    虽然不排除目前对 gemma 4 系列的支持不是很好/有 bug 就是了

    跑 SDXL 的话
    4070S 速度大概是 9060xt 的 1.7~2 倍 (1536x1024 一个 45 秒一个 80 秒)
    但解析度/模型大一些就先炸了

    afkool

    61

    afkool      16 天前 via Android

    菜鸟想法(我自己)
    买 388h 或者 ai395max 128g 的跑推理
    需要训练了租云端练丹,不知道是否性价比可行?

    Dream4U

    62

    Dream4U      16 天前

    能替代的话,A 家和 O 家不用活了

    WhatIf

    63

    WhatIf      16 天前

    24G 的 3090 ,4090 之类 可以跑 30B 上下规模的模型,但是上下文很小, 项目大了估计就不行。
    但是感觉 32G 48G 的也好不了太多。
    那么只有 pro 6000 96G 显存 能全量跑 32B ,这两天狗东刚看了下价格, 有提供整机的,84000 左右

    kinghly

    64

    kinghly      16 天前 via iPhone

    本地成本太高了,而且现在发展太快了.

    Cheree

    65

    Cheree      16 天前   ❤️ 1

    @davidyin 明显不合适,上了 D5 内存,结果还在搞 B760M+14600K,低预算新卡最合适的是 5060Ti 16G ,或者 5070Ti

    Nidhoggur

    66

    Nidhoggur      16 天前

    @coefu 想问下 122B 的本地智商大概和 api 差多少?我本地只跑过 35B 的 qwen 3.5 Q4 ,酒馆用着都觉得降智

    dongfanga

    67

    dongfanga      16 天前

    等 mac 新一代的 studio 最高配版,或者海外购 5090 双卡组建(不跑 llm 还能用来游戏),如果没有太大必要,直接调用 api 更实惠

    davidyin

    69

    davidyin  

    OP

       15 天前 via Android

    没想着要同旗舰款比美,或者替换的意思。
    目的只是辅助编程,能分析一下代码,做的东西又是很小的。
    @Cheree
    是低预算。你能给个建议配置吗?

    slowgen

    70

    slowgen      15 天前   ❤️ 1

    预算鸡肋不如买 api ,而且你低估了 Mac Studio 在跑大模型这件事上是极致性价比,官方翻新的 Mac Studio 库存已经 3 个月没补过货了,坐等 M5 Ultra 是最好的选择,因为曾经的 prefill 短板已经不短了。

    跑大模型不是说你现在部署了之后就不动了,非要选择方案,当前性价比最高的是 DFlash + Qwen3.6 27B 方案,人家在单张 3090 上优化到极致跑的,直接抄作业就行。

    但是,如果 2 个月之后出了一个开源模型,能力比你现在跑的模型提升 20%~ 30%,部分能力追平 Opus 4.7 ,体积在 40 ~ 60B 这个尺寸,你手头的硬件跑不动了,升级空间也没了,你怎么想。
    很遗憾,现在的模型就是月更,你无法预计到下一个月有什么模型出现,它们的能力又达到了什么程度。

    而且从已有的信息来看,你对模型类型( Dense / Moe 和显存带宽 or 内存带宽的关系是如何影响到 token/s 的)、prefill 速度取决于什么、模型尺寸和不同的量化方案( Q4_K_M/Q4_K_X_L/NVFP4/MXFP4/Q5/Q6/Q8/FP8 的差异)和上下文大小对于显存占用是如何计算的,这些信息你都没有任何概念。
    更别说评估你的任务需要注意模型 benchmark 分数的哪几项指标,同时这些指标在能选的模型里哪个最好。

    当你解了之后,你的结论就回到了我这条评论的第一句话了。

    davidyin

    71

    davidyin  

    OP

       15 天前 via Android

    @slowgen
    先感谢劝退我的网友。

    Mac 的事情,纯粹是我个人不喜欢。
    的确对你提到的这些没概念,所以才想着能有些东西学习,总不能意念学习啊,所以想着自己动手。要用 API 或者订阅对于我还是很简单的,毕竟加拿大很方便。

    我太太问我是要工作还是考虑玩。我的答复是,必须“军民两用”,游戏和工作相结合才更有意思啊。

    imqiyue

    72

    imqiyue      15 天前 via iPhone   ❤️ 1

    @davidyin 这配置不太建议,最多也就跑个 9b 的模型,还需要考虑 kv 缓存,而 9b 又做不了什么事

    imqiyue

    73

    imqiyue      15 天前 via iPhone   ❤️ 1

    @2000wcw 是因为亲身经历过,所以不建议。23 年 4090 跑 13b 、25 年搭 256g ddr4 跑 ds r1 (这纯玩,做不得数)速度奇慢,macmini m4 16g 和 m1pro 16g 跑 qwen 3.5 9b ,都试玩过,做不了生产力。

    deep123

    74

    deep123      15 天前

    配个机器的钱,能用订阅多久 claude 和 gpt 呢,本地的算力和模型再聪明能多聪明呢,去折腾还不如多用用一线 ai

    mewking

    75

    mewking      15 天前

    @slowgen 嘿嘿,就知道这贴会把你炸出来

    目前,我觉得个人部署底线应该是 2*3090 或者 4*5060ti ,各有优劣,二手 3090 年数很久了,不知道什么时候会炸,5060ti 主板,电源,延长线折腾,卡多麻烦;加上 192G DDR5 ,这套配置 27b 和 31b dense ,dflash 速度不错了。等 Deepseek V4 flash 的 llama.cpp,dflash,nvfp4 支持到位,本地对话速度应该可以,vibe 就等不起

    上限就不封顶了,看有人尝试用 dgx spark + mac studio 集群搞 DP 分离

    photolife

    76

    photolife      15 天前 via Android

    剛買了台二手 9000k ,構建本地向量數據庫用,用來對接線上各 AI 應用,替代線上是不可能的,另外會剪輯 8k 視頻。感覺你要確認行動的目標,然後就容易選擇。

    davidyin

    77

    davidyin  

    OP

       14 天前 via Android

    原先的想法就是能当编程助手,能做一些重构,改善我写的那些 PHP 代码。能力相当于 kiro 订阅里面的 coder 智能体,因为我也就用到这些。而且是单人使用。

    问了 copilot ,它认为,14B 的模型就差不多,比如 Qwen2.5 coder 14B 。

    跑这个模型,12GB 显卡,可以用 q4 量化版本;若是 16GB 显卡,可以跑 q5 版本。

    oldlamp

    79

    oldlamp      14 天前   ❤️ 1

    @davidyin

    Qwen2.5 coder 14B 太老了,而且实际表现也太差了,远不如上面那个链接中提到的 omnicoder-2-9b 的

    linser

    80

    linser      14 天前

    到发帖时间为止,目前能在本地部署的开源模型,最好的就是 Qwen3.6 27b ,也是最接近商用模型的小模型,这个模型 16G 显存勉强能用 Q4 跑,但是要干活建议 Q6 及以上,需要 24G 或 32G 显存,所以 5060TI*2 、5070TI*2 、5090D 24G 是起码的配置,有条件可以上 5090 32G ,不怕风险也可以考虑 4080S 32G 、4090 48G 这种 DIY 卡。

    除了 Qwen3.6 27b 外,Qwen3.6 35b 和 Gemma4 也能用用,但是效果要差一些,其他模型就不建议了。

    jhytxy

    81

    jhytxy      12 天前   ❤️ 1

    现在本地最能打的就是 qwen3.6 27b and gemma4 31b

    你租个机器体验一下就知道怎么搞了
    最低是两张 2080 22g
    44g vram

    看下 q8 ,q6 性能能接受不
    不能接受就别想了买 api