本地大模型之路（三）：推理引擎和 LLM 应用 - 少数派

少数派

派早报：Google 发布 Fitbit Air 等 - 少数派「新人报到」確認需求，再開始 - 少数派从 SOLO 独立开发者社区，我看到了越来越多开发者开始做自己的产品 - 少数派我怎么管理那些"不常做，但总会忘"的生活事项 - 少数派人形机器人量产元年，数据才是具身智能的“生死线” - 少数派 BuhoLaunchpad 高度还原 Mac 启动台：开发历程与思考 - 少数派五年陪伴依然不舍，DIY 换壳后让罗技 MX Master 3 继续服役 - 少数派新玩意 240｜少数派的编辑们最近买了啥？ - 少数派一日一技｜为什么你应该关闭 iOS 的键盘声音 - 少数派我做了个插件和 Skills，一键提取任何网站的设计规范 Design.md - 少数派住在三四线城市的你，该开始录播客了 - 少数派甘南秘境，大白高国 - 少数派 AI的审美：谁让把我变成川内倫子 - 少数派返工怎能不烦恼，打工人片单总有一部是你的「嘴替」 - 少数派为了让「上厕所」更健康，我做了一个小工具 - 少数派 AI + Skill，能够让生成的文章去除 AI 味吗？ - 少数派新玩意｜韶音OpenDots ONE 耳夹式耳机 - 少数派《美满》| 在每一个春天的晚上相爱（362） - 少数派新玩意｜优篮子 PS01 MagSnap 磁吸支架 - 少数派自我整合手记 | 我开始早睡了：用稳定规则，为自由托底 - 少数派用龙虾（OpenClaw）两个多月，我最深的12个体会 - 少数派听歌时间到，12 张你可能错过的 2025 华语乐坛好专辑 - 少数派承诺能追吗 - 少数派 macOS 26启动台没了? 我做了个不一样的App启动器 - Keboard - 少数派《四海为家的人》| INTJ对话INTJ（361） - 少数派你发过的那些黑历史，是时候一次清干净了 - 少数派新玩意：安安静静玩，越玩越专注：计客密码机 - 少数派 iPad 用户首次体验 Android 平板：vivo Pad6 Pro - 少数派数据逻辑强 - 少数派极北行+ | 一路向北，探访日本至北之地 | 001 - 少数派万字剖析：千问App深度体验报告（2026） - 少数派在2026年，如何真正防止别人抄袭你的作品 - 少数派怎么用 50 块搭个 AI 语音助手？我踩了 3 天坑 - 少数派 YeeroAI：让 AI 对话真正成为知识管理的一部分 - 少数派爬泰山 - 少数派「旅图显影」 App 更新：这次，我们补上了一点「手感」 - 少数派假期出门太折磨？我的 23 条经验帮你规划惬意旅行 - 少数派工作流会变吗 - 少数派 Claude Opus 4.6 怎么用最省钱？我测了 5 种方案 - 少数派 GPT Image 2 让图文并茂不再稀罕 - 少数派用户侧出发——什么是AI，我要不要学习？ - 少数派找片、转存、整理、播放一条龙！让你的付费网盘值回票价 - 少数派欢迎试用！日课一问2.0插件 - 少数派自己做的MDeditor，原本想购买 Typora 试了两次支付不成功，干脆自己做一个 - 少数派 vibe coding了一个 3MB 的小工具，让 ~/Downloads 彻底告别混乱 - 少数派因为受不了 Mac 的风扇策略，我做了一个风扇控制工具 - 少数派别只怪模型 - 少数派 Warp 终端的 AI 功能怎么用？我测了一周的体验 - 少数派 AI 写代码老是出 bug？这 5 个配置我后悔没早知道 - 少数派「新玩意」苹果出相机可能就这样：Sigma BF + 45mm F2.8 DG Contemporary - 少数派一个面向2030年的AI操作系统是什么样子的：浅谈cola这款有灵魂的Agent - 少数派别只看写代码 - 少数派每天解决10个问题，还是一口气攻坚解决400个？ - 少数派 AI 交易机器人怎么搭？我用 Claude 跑了一周实盘 - 少数派 Maptoposter Online：把你爱的城市画成艺术海报 - 少数派 Function Calling 怎么用？我测了 3 个模型发现差距真大 - 少数派 Legend Talk：我做了个 AI 圆桌，让 160 位思想家围着你的问题转 - 少数派如何找到自己的蓝方？在小县城寻找压力测试 - 少数派语音输入与软件接口｜2026年聊AI时，我们都聊些什么（上） - 少数派混动已经卖爆，纯电又来补刀——钛7闪充版简直“不讲武德” - 少数派本月玩什么｜朋友收藏、识质存在、沙罗周期 - 少数派为什么要每天坚持输出？ - 少数派 Claude API 挂了好几个小时，你的项目有备用方案吗？ - 少数派 Function Calling 没你想的复杂——我用它做了个有点用的工具 - 少数派登录系统立即播放视频或者图片音乐的软件 - 少数派我为什么创建 FlipHTML5 下载工具 - 少数派残局没电？多品牌外设电量统一管理软件EasyBluetooth已支持RTSS游戏内显示以及AIDA64 - 少数派前往通义路的路 - 少数派太好看了，媲美Sun的个人导航页，NAS部署星云门户 - 少数派乌黑嘴唇“一键检测”上线了 - 少数派派早报：Claude AI 接入多个创意软件生态、FILCO 生产方接手品牌等 - 少数派【更新】BearCLI、Claude 连接器与 MCP 服务器 - 少数派记了上千条流水，还是看不懂财务？我做了一个让 AI 读懂账本的工作台 - 少数派 MINI R56 升级原厂 Sport 模式 - 少数派新玩意 | 一棵柠檬树（仿真版） - 少数派 Momenta的“物理AI”野望，需迈过“含摩量”这道关 - 少数派网页直接投屏控制手机！NAS一键部署PandaScrcpy，流畅丝滑可远程。 - 少数派众测｜邀你一同探索随身 AI 硬件入口 YoooClaw C·ONE - 少数派 2050大会：分享时间是真诚参会记 - 少数派 iPad 赋能电影创作：国内首部宣纸手绘长片《燃比娃》的幕后故事 - 少数派 AI的审美：我用 8 个大模型给 100 张旅行照片打分 - 少数派普通人如何破圈？去参加一个本地协会 - 少数派把极空间的图标全换了，主题DIY全攻略打造你的专属NAS桌面 - 少数派电子便签墙，帮你实现便签自由 - 少数派我如何用三个 CLI 工具取代文档创建需求 - 少数派原来真的有人可以玩一辈子 - 少数派社区速递 139 | 派友热议三月买了啥、复古单反尼康 Df 体验 - 少数派 06 作品的赏析与评价 - 少数派 TDS REVIEW｜索尼 WF-1000XM6 降噪真无线耳机体验 - 少数派 35.98万起售的第二代腾势D9，我看重的不是堆料，而是不凑合 - 少数派鼠须管 Squirrel 皮肤配置指北 - 少数派从watch ultra2换到redmi watch6 - 少数派派早报：阿里巴巴发布视频生成模型 HappyHorse 1.0 等 - 少数派别迷信1M - 少数派家人们天塌了！网盘“大封杀”，多个渠道多条路，NAS部署PanHub - 少数派 AI与人勾心斗角！NAS一键部署AI狼人杀，假日休闲必备。 - 少数派电商必备！Comfyui工作流批量生图插件，一次生成12张！支持Nano banana pro模型 - 少数派 Comfyui工作流配置Gpt-image-2模型教程，0.03/张 - 少数派 OpenClaw第三方APi怎么配置？可使用Gpt-image-2模型 - 少数派会员社区话题精选 Ep. 103 - 少数派

2025-03-11 · via 少数派

本文是「本地大模型之路」系列文章的第三篇，前序文章见：

在前两篇文章发表之后的一段时间内，开源大模型领域又迎来了非常大的变化。尤其是 DeepSeek-R1 的出现，可以说标志着开源模型第一次追上了闭源模型¹。另外消息称 Apple 将选择阿里作为国区的 Apple Intelligence 合作伙伴，巧的是这俩都是去年开源顶流模型的提供方，在笔者看来 DeepSeek 和 Qwen 的脱颖而出绝非偶然，它们都是开源反哺商业生态的绝佳案例。

回到本地大模型这个话题——前面两篇文章我们简单介绍了一些大语言模型和推理相关的基础知识，并且对于硬件选择也有了一定的认知。本文我们将介绍更为实用的推理框架和上层应用。无论你是本地大模型玩家还是 API 用户，本文内容都会对你有所帮助。

如果我们已经选定了模型，怎么在机器上跑起一个大模型呢？从计算最底层开始，我们可以画出这样一张图：

最底层硬件的加速算子：不像 CPU，GPU 各家都有自己的架构设计，一般需要通过厂家提供加速算子更高效的执行计算。比如 NVIDIA 的「护城河」CUDA、Apple Silicon 上的 Metal 等。
推理引擎：LLM 推理的核心部分，加载模型权重、高效编排计算、提供上层应用需要的接口。比较知名的开源项目有 llama.cpp、vLLM 和 SGLang。
引擎 Wrapper：如果直接使用推理引擎，通常需要通过命令行指令，而且启动参数比较复杂、要查文档。因此类似 Ollama、LM Studio 做了一层封装，可以在更友好的界面中下载模型、启动以及进行对话。
LLM 应用：推理引擎和引擎 Wrapper 都能提供接口被最上层的应用调用，这个接口的事实标准即 OpenAI 兼容 API。所以在 DeepSeek 的官方 API 文档里面看到 import openai 不要紧张，因为 OpenAI 最早提出，各家都会遵循这样的接口定义。

对于大多数用户来说，底层加速算子可能过于抽象。我们不妨通过 llama.cpp 这个项目来串联起上下游的认识。

llama.cpp 的前世今生

如果之前有过本地部署的经验，想必你一定听说过 llama.cpp 这个项目。名字也是言简意赅，前面部分来自 Llama（Large Language Model Meta AI，现在不常用 LLaMA 的缩写），算是最早的开源大语言模型，随着开源社区的蓬勃发展它几乎支持所有的主流模型，甚至包括多模态大模型；后面的部分则表明其主要采用 C/C++ 语言，以达到更广泛的硬件支持。

项目的作者 Georgi Gerganov 在此之前开发过 whisper.cpp，用来支持 OpenAI 的 Whisper 语音识别模型的推理。这两个项目都依赖其另一个张量计算库 ggml。

跟其他在大模型时代流行的开源项目一样（得益于某些公司持续的闭源策略），llama.cpp 一经发布就广受关注，GitHub 上获得的 stars 数量已经来到了恐怖的 75.1k。这个项目最大的两个亮点，我觉得一是大而精的硬件后端支持，二是丰富的量化策略：

它不仅能跑在各个品牌的 CPU 上，对 Apple Silicon 的优化也非常好；NVIDIA 的 GPU 不必说，AMD、Intel 的卡都能跑，甚至还支持摩尔线程和华为昇腾。
从 1.5-bit 到 8-bit 丰富的量化策略，可满足各种苛刻的显存限制条件。

值得一提的是，这是一个符合我心目中理想的「开源精神」定义的项目。开发者 ikawrakow 在 k-quants（llama.cpp 使用的量化策略）的 PR 里面这样回复用户为什么这个功能没有把 k-quants 和 i-quants 写成论文：

没有把 k-quants 和 i-quants 写成论文是因为不喜欢写论文。加上我喜欢不需要在我的简历里面增加新论文的感觉，也没有在找工作或者投资，也没有理由在 arXiv 上宣传。
另一方面，不发文章让其他研究人员可以忽略这两种量化策略，尽管 HuggingFace 上有很多这两种量化的模型。使得他们的新的量化方法显得比实际要更好。有助于维持炒作。
总的来说，这是一种双赢 😃。

DeepSeek-V3 的训练中也利用了 k-quants 这样按分片量化的方式，来稳定 FP8 的训练，并且在开源周活动中直接放出了优化过的 CUDA 算子。

GGUF 的命名规则

llama.cpp 提供命令行工具来启动模型，比如启动对话模式：

llama-cli -m model.gguf

等等，这个 .gguf 是什么？

一般来说，模型提供者在上传 Hugging Face 的时候会上传 .safetensors 的原始模型权重。而 GGUF 则是 llama.cpp 的特有格式，用来支持其各种特性。Hugging Face 有一个详细的页面来介绍这个格式，大致的存储结构如下：

不过感谢各位社区伙伴，各种新模型一经推出就会被转换成各种 GGUF 文件上传到 Hugging Face，我们下载之后就可以直接通过命令行使用。比如 unsloth 转换的 DeepSeek-R1-GGUF，我们可以看到有非常多的格式。

以其中一个举例：

原始模型名：DeepSeek-R1
Q5_K：大致的量化等级为 5-bit
M：不同量化策略，一些层的权重量化等级会更高，从模型大小的结果上看 S < M < L

除此之外，unsloth 提供了更特制的量化模型，比如 UD-IQ1_M，MoE 层为 1.56bit，其中的 down_proj 为 2.06bit。

通过 Ollama 和 Open WebUI 更轻松地使用大模型

如果上面的介绍读得头疼也很正常，一些 to C 的大模型产品的命名就很令人迷惑，更别说开源世界的缤纷选择了。如果你不想关心这些细节，只想使用一些常用的模型、并且已经为你选择好合适的量化策略，Ollama 或者 LM Studio 这些 llama.cpp 的封装会更好用。

LM Studio 出现在 Apple 的宣传页中可以说小小出圈了一下。它提供了一个很不错的 UI 界面用来浏览和下载模型，方便启动和调试。

然而它是一个闭源应用。尽管说它可以运行 Apple 的 MLX 格式的模型，但在一个快速迭代、野蛮生长的大模型时代，本地大模型用闭源应用启动并不够灵活，而开源的 Ollama 则可以使用 Hugging Face GGUF 格式的模型，也提供了命令行工具下载和管理模型。

如果想要获得和 LM Studio 类似甚至更强的体验，可以通过另一个项目 Open WebUI，来连接 Ollama 实例，实现可视化操作。两者安装完之后，仅需要各自启动就能得到类似一个增强版的 ChatGPT 的本地模型。你不仅可以细粒度的控制生成参数，也可以进行联网搜索、本地 RAG 知识库增强的操作。

安装和启动

安装 ollama 非常简单，通过命令行 ollama serve 即启动一个本地实例。Open WebUI 的安装则有一定门槛，需要有点 docker 或者 Python 基础，可以参照官方文档。

如果是通过 Python 安装，同样通过命令行 open-webui serve 就可以启动实例，然后通过 http://localhost:8080/ 访问。

下载和使用模型

启动之后 Open WebUI 就自动连接到了 ollama 实例。

我们可以通过管理员设置-模型-管理模型直接下载和管理 ollama 的模型。注意 ollama 官方提供的模型版本和其官网上的模型名是一一对应的。比如 qwq 是 Q4_K_M 量化的，qwen2.5-coder 默认指向 7B 版本，其他的需要指定为 qwen2.5-coder:14b 之类的名称。

基础功能：联网搜索、代码执行

可以看到 OpenWeb UI 整个界面和主流的一些大模型产品网页入口基本一致。我们在管理员设置里面设置搜索引擎，也可以打开联网搜索。

打开联网搜索能够比较好缓解本地一些小模型在知识上的幻觉问题。但是类似图中的问题也没有完全答对。

使用 OpenWeb UI 另一个好处是我们能知道进入模型的实际文本是怎样的。比如上面的例子中检索了 Apple 官方，但是只提及了 24GB 和 32GB，尽管第二个链接中有 16GB 的选项，但是由于经过量化的 7B 模型的长文本能力有限，最终还是答错了。

同样 OpenWeb UI 内置了代码解释器，可以用来渲染 SVG 或者体验 Python 画图等功能。

本地 RAG

在管理员设置-文档中，我们可以设置 Embedding 模型、提示模板来构建本地 RAG 流程——RAG、Retrieval-Augmented Generation 即检索增强生成，基本知识可以参考这个链接。从效果上看，RAG 可以帮助模型根据本地知识库完善问答，对于召回效果来说，Embedding 模型的质量比较关键，可以通过 Hugging Face 的排行榜进行筛选。

另外如果想要更简单的方式通过 Ollama 使用 RAG，可以看看 RLAMA。

其他高级功能

除了一些基础功能之外，OpenWeb UI 社区还提供了各种 Prompt 模板、工具（让模型使用工具）、函数等高级功能。

比如导入了工具并在请求时打开时，模型能调用工具通过 API 处理和访问数据、执行代码……一个典型的案例就是能调用计算器，这样就永远不会算错了。

而函数功能相当于插件，通过它能进一步增强模型的定制化能力，实现复杂的流水线、构建一个真正的工作流而不是仅仅通过对话请求。

推荐订阅源

少数派