搞一台 64G 内存的电脑成本太高,还要其他硬件和电费,缙哥哥这次玩的是速维云。如果你觉得下面每一个步骤都看不懂,并且也不想懂(只想玩)的话,可以联系缙哥哥帮忙部署。

开通好云服务器之后,通过 SSH 连接服务器之后,直接甩个命令上去,先把 Ollama(起到了本地大模型运行平台和管理工具的核心作用,它把复杂的模型权重、配置和运行环境打包成一个统一的单元,只需一条命令就能开箱即用)装好再说!
curl -fsSL https://ollama.com/install.sh | sh
如果是国内服务器,可以先看看下载速度如何,如果过慢,建议还是套个转发,别像缙哥哥这样浪费了两三天时间。
下载后会自动执行解压并安装。
>>> Cleaning up old version at /usr/local/lib/ollama
>>> Installing ollama to /usr/local
>>> Downloading ollama-linux-amd64.tar.zst
######################################################################## 100.0%
>>> Creating ollama user...
>>> Adding ollama user to render group...
>>> Adding ollama user to video group...
>>> Adding current user to ollama group...
>>> Creating ollama systemd service...
>>> Enabling and starting ollama service...
Created symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.
>>> The Ollama API is now available at 127.0.0.1:11434.
>>> Install complete. Run "ollama" from the command line.
WARNING: No NVIDIA/AMD GPU detected. Ollama will run in CPU-only mode.
由于缙哥哥用的是云服务器,没有显卡,只能基于 CPU 运行。
选择AI大模型
由于本次玩的是 64G 内存的服务器,只能依靠 CPU 进行推理,纯 CPU 运行大模型的特点是速度相对较慢(生成文字会有“打字机”效果),但成本极低且能处理复杂任务。也就意味着有两个选择:
一、体验“满血”大模型(30B – 35B 参数)
有 64G 内存,可以直接运行参数量在 30B 以上的大型模型,这类模型在逻辑推理、长文本理解和代码能力上表现极佳:
- Qwen3.5-35B MoE:这款模型非常适合你。它采用了 MoE(混合专家)架构,虽然总参数量高达 34.7B,但每次推理时只激活极少部分参数。配合 IQ2_M 量化技术,它只需要约 11GB 内存,在服务器上运行毫无压力,且效果出众。
- DeepSeek-R1-Distill-Qwen-32B:这款模型在数学和代码任务上表现优异,32B 的参数量在你的内存支持下可以流畅运行,非常适合用来做代码助手或复杂逻辑推理。
二、追求极致响应速度(7B – 8B 参数)
如果你觉得 30B 以上模型生成文字的速度太慢,希望追求更快的响应体验,可以选择 7B 左右的轻量级模型。它们在你的服务器上运行速度会快很多:
- Qwen1.5-1.8B-Chat/Qwen-7B:Qwen 系列对中文支持极好,1.8B 版本极其轻量,7B 版本在速度和智能之间取得了很好的平衡。
- Mistral-7B:性能优秀的开源模型,支持多语言,对硬件要求低,非常适合日常对话和文本处理。
最终我选择了 Qwen3.5-35B 大模型,如果后面感觉反应太慢,再考虑切换 Qwen-7B 大模型。
下载部署AI大模型
由于我用的是国内的服务器,国内直连官方源较慢,缙哥哥利用国内的魔搭(ModelScope)或 HuggingFace 镜像来加速下载。
# 使用魔搭社区镜像拉取(国内服务器首选)
ollama run modelscope.cn/unsloth/Qwen3.5-35B-A3B-GGUF:MXFP4_MOE
# 或者使用 HuggingFace 国内镜像站
ollama run hf-mirror.com/unsloth/Qwen3.5-35B-A3B-GGUF:MXFP4_MOE
缙哥哥用魔搭直接速度拉满,太爽了!

根据你自己选择的大模型大小,慢慢等待即可。

好了!私人AI已经跑起来了。直接在命令行里跟它聊天,想聊多久聊多久。缙哥哥简单问了几个问题,但是回答的内容有点不太聪明(牛头不对马嘴)的样子。
开通远程访问AI
配置环境变量
编辑 /etc/profile (不会的小伙伴可以参见《Linux 文本编辑器 Vim “真 · 简单”使用教程》)
vi /etc/profile
末尾添加(允许所有 IP 访问)
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_ORIGINS=*
生效
source /etc/profile
修改服务文件(添加环境变量),也可以用 FinalShell 软件直接双击修改。
vi /etc/systemd/system/ollama.service
在 [Service] 下添加 2 行:
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"
重载+重启服务 +
# 重载+重启
systemctl daemon-reload
systemctl restart ollama
放行端口
# 放行11434端口(防火墙)
firewall-cmd --zone=public --add-port=11434/tcp --permanent
firewall-cmd --reload
# 或直接关闭防火墙(测试环境)
systemctl stop firewalld
systemctl disable firewalld
有些系统根本就没有开启(比如我)防火墙,那就无视。
部署 Open WebUI 可视化界面
安装下 Docker 环境,并确认服务器安全组 / 防火墙放行端口:3000,Ollama 正常运行,端口 11434 对外开放。
一键启动 Open WebUI 容器(核心命令)
考虑到前两天的遭遇,缙哥哥还是直接国内拉取镜像加速吧,用下面的命令替换:
mkdir -p /etc/docker
tee /etc/docker/daemon.json <<-'EOF'
{
"registry-mirrors": [
"https://docker.1ms.run",
"https://hub.rat.dev"
]
}
EOF
systemctl daemon-reload
systemctl restart docker
如果你是海外服务器,请无视上面这一步操作。
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
参数解释
- -p 3000:8080:外部访问端口 3000,浏览器 IP:3000 进入界面
- –add-host=host.docker.internal:host-gateway:容器自动连通宿主机 11434 端口的 Ollama,无需手动填地址
- -v open-webui:/app/backend/data:持久化存储账号、对话记录、配置,删容器数据不丢失
- –restart always:服务器重启自动拉起网页面板
吐槽:你知道嘛,为了安装部署这个 Open WebUI,哪怕走了镜像加速,还是整整花了我三四天的功夫,就是反复的网络问题,反复的下载中断,我是一有空就重新执行代码部署,一有空就重新执行代码部署,预计有十几二十次。终于,皇天不负有心人……

我心心念念的可视化界面出来了!

而经过实际使用和测试,我选择的 AI 大模型似乎只使用了 25G 的内存,只有 CPU 经常 100% 的使用(因为没有显卡),所以小伙伴们可以考虑使用 32G 内存的服务器玩玩,如果部署 7B 的大模型,估计使用量更少。
如何让你的 AI 进行学习?
在 Open WebUI 中,AI 并不是像人类一样通过“阅读”来永久记忆。它的“学习”过程实际上是检索增强生成(RAG):
- 上传文档:你将 PDF、Word、TXT、Markdown 等文件上传到系统。
- 切片与向量化:系统自动将文档切分成小块(Chunks),并计算每个块的“向量”(数学特征),存入向量数据库。
- 检索:当你提问时,系统先在向量数据库中搜索与你问题最相关的文档片段。
- 生成:系统将搜索到的片段作为“上下文”喂给大模型,模型基于这些片段回答你的问题。
结论:AI 的“知识库”就是上传并处理过的文档集合。
管理员操作指南(打造专属知识库)
步骤 1:准备你的资料
确保你手头有想要让 AI 学习的资料,格式支持:
.pdf,.txt,.md,.docx,.html,.csv,.json等。- 建议:资料越清晰、结构化越好(如 Markdown 格式的笔记、标准 PDF 文档)。
步骤 2:进入“知识库”管理界面
- 登录 Open WebUI。
- 在左侧侧边栏(或顶部菜单,取决于版本),找到并点击 “Knowledge” (知识库) 图标。
- 如果是首次使用,可能需要先创建一个新的 Knowledge Collection(知识库集合)。
- 点击右上角的 “Create Knowledge Collection” (创建知识库集合)。
- 名称:例如“公司技术文档”、“个人读书笔记”、“法律条文库”。
- 描述:简要说明这个库包含什么内容。
- 点击创建。
步骤 3:上传并处理文档
- 进入刚创建的知识库页面。
- 点击 “Add Files” 或拖拽文件上传。
- 等待处理:
- 上传后,系统会自动开始解析(Parsing)。
- 你会看到状态变化:
Processing->Indexed(已索引)。 - 注意:如果文档很大,处理可能需要几分钟。不要关闭窗口,直到状态变为绿色或显示完成。
步骤 4:验证知识是否生效
- 点击 “Test” 或直接在对话框中提问。
- 测试问题:询问你刚上传文档中的具体细节。
- 错误示范:“你是谁?”(AI 会回答它是 Open WebUI,与知识库无关)。
- 正确示范:“根据我上传的文档,我们的服务器密码策略是什么?”
- 观察回答:
- 如果 AI 回答正确,说明知识库已生效。
- 如果 AI 说“我不知道”,请检查文档处理是否成功(查看日志或重新上传)。
如何在对话中调用知识库
创建好知识库后,在聊天时如何让它“生效”?
方法 A:在对话中直接选择(推荐)
- 新建一个聊天会话(New Chat)。
- 在输入框上方(或侧边栏),找到 “Knowledge” (知识库) 选项卡。
- 勾选 你刚才创建的知识库(例如“公司技术文档”)。
- 输入问题,AI 就会基于该库的内容回答。
- 技巧:你可以同时勾选多个知识库,AI 会综合所有库的信息回答。
方法 B:在对话设置中全局关联(管理员权限)
如果你是管理员,可以在创建特定用户或特定对话时,预设默认知识库。
- 进入 Settings (设置) -> Knowledge。
- 可以将常用知识库设为全局默认,这样所有对话默认都会检索这些内容(需谨慎,避免信息过载)。
高级配置(让 AI 学得更“聪明”)
作为管理员,你可以在 Settings (设置) -> Knowledge 或 Embedding Model (嵌入模型) 中进行高级调整:
1. 调整切片大小 (Chunk Size)
- 默认:通常为 500-1000 字符。
- 调整:
- 如果 AI 回答太短、断章取义 -> 调大切片(如 1000-2000)。
- 如果 AI 混淆了不同概念 -> 调小切片。
- 操作:在知识库设置中调整
Chunk Size和Chunk Overlap(重叠率,建议 10%-20%)。
2. 切换嵌入模型 (Embedding Model)
- Open WebUI 默认使用
BGE-M3或nomic-embed-text(取决于安装配置)。 - 重要性:嵌入模型决定了 AI 对文档理解的“语义相似度”。
- 操作:
- 进入 Settings -> Embedding Model。
- 如果默认模型效果不好(如中文理解差),可以切换到支持中文更好的模型(如
BGE-M3或m3e,需确保你的服务器已下载该模型)。
3. 调整检索策略 (Retrieval Strategy)
- Top K:决定每次检索返回多少个文档片段。
- 默认通常是 4-10。
- 如果问题复杂,需要更多背景,可以调高到 15-20。
- 如果回答太啰嗦,可以调低。
常见问题与排查

好吧,从购买服务器到这篇文章结尾已经折腾了一个星期了,有什么问题小伙伴们可以在下方留言,我知道的会尽量回复,前提是有时间。



























