零基础部署私人AI：云服务器部署Ollama和AI大模型

搞一台 64G 内存的电脑成本太高，还要其他硬件和电费，缙哥哥这次玩的是速维云。如果你觉得下面每一个步骤都看不懂，并且也不想懂（只想玩）的话，可以联系缙哥哥帮忙部署。

开通好云服务器之后，通过 SSH 连接服务器之后，直接甩个命令上去，先把 Ollama（起到了本地大模型运行平台和管理工具的核心作用，它把复杂的模型权重、配置和运行环境打包成一个统一的单元，只需一条命令就能开箱即用）装好再说！

curl -fsSL https://ollama.com/install.sh | sh

如果是国内服务器，可以先看看下载速度如何，如果过慢，建议还是套个转发，别像缙哥哥这样浪费了两三天时间。

下载后会自动执行解压并安装。

>>> Cleaning up old version at /usr/local/lib/ollama
>>> Installing ollama to /usr/local
>>> Downloading ollama-linux-amd64.tar.zst
######################################################################## 100.0%
>>> Creating ollama user...
>>> Adding ollama user to render group...
>>> Adding ollama user to video group...
>>> Adding current user to ollama group...
>>> Creating ollama systemd service...
>>> Enabling and starting ollama service...
Created symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.
>>> The Ollama API is now available at 127.0.0.1:11434.
>>> Install complete. Run "ollama" from the command line.
WARNING: No NVIDIA/AMD GPU detected. Ollama will run in CPU-only mode.

由于缙哥哥用的是云服务器，没有显卡，只能基于 CPU 运行。

选择AI大模型

由于本次玩的是 64G 内存的服务器，只能依靠 CPU 进行推理，纯 CPU 运行大模型的特点是速度相对较慢（生成文字会有“打字机”效果），但成本极低且能处理复杂任务。也就意味着有两个选择：

一、体验“满血”大模型（30B – 35B 参数）

有 64G 内存，可以直接运行参数量在 30B 以上的大型模型，这类模型在逻辑推理、长文本理解和代码能力上表现极佳：

Qwen3.5-35B MoE：这款模型非常适合你。它采用了 MoE（混合专家）架构，虽然总参数量高达 34.7B，但每次推理时只激活极少部分参数。配合 IQ2_M 量化技术，它只需要约 11GB 内存，在服务器上运行毫无压力，且效果出众。
DeepSeek-R1-Distill-Qwen-32B：这款模型在数学和代码任务上表现优异，32B 的参数量在你的内存支持下可以流畅运行，非常适合用来做代码助手或复杂逻辑推理。

二、追求极致响应速度（7B – 8B 参数）

如果你觉得 30B 以上模型生成文字的速度太慢，希望追求更快的响应体验，可以选择 7B 左右的轻量级模型。它们在你的服务器上运行速度会快很多：

Qwen1.5-1.8B-Chat/Qwen-7B：Qwen 系列对中文支持极好，1.8B 版本极其轻量，7B 版本在速度和智能之间取得了很好的平衡。
Mistral-7B：性能优秀的开源模型，支持多语言，对硬件要求低，非常适合日常对话和文本处理。

最终我选择了 Qwen3.5-35B 大模型，如果后面感觉反应太慢，再考虑切换 Qwen-7B 大模型。

下载部署AI大模型

由于我用的是国内的服务器，国内直连官方源较慢，缙哥哥利用国内的魔搭（ModelScope）或 HuggingFace 镜像来加速下载。

# 使用魔搭社区镜像拉取（国内服务器首选）
ollama run modelscope.cn/unsloth/Qwen3.5-35B-A3B-GGUF:MXFP4_MOE

# 或者使用 HuggingFace 国内镜像站
ollama run hf-mirror.com/unsloth/Qwen3.5-35B-A3B-GGUF:MXFP4_MOE

缙哥哥用魔搭直接速度拉满，太爽了！

根据你自己选择的大模型大小，慢慢等待即可。

好了！私人AI已经跑起来了。直接在命令行里跟它聊天，想聊多久聊多久。缙哥哥简单问了几个问题，但是回答的内容有点不太聪明（牛头不对马嘴）的样子。

开通远程访问AI

配置环境变量

编辑 /etc/profile （不会的小伙伴可以参见《Linux 文本编辑器 Vim “真 · 简单”使用教程》）

vi /etc/profile

末尾添加（允许所有 IP 访问）

export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_ORIGINS=*

生效

source /etc/profile

修改服务文件（添加环境变量），也可以用 FinalShell 软件直接双击修改。

vi /etc/systemd/system/ollama.service

在 [Service] 下添加 2 行：

Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"

重载+重启服务 +

# 重载+重启
systemctl daemon-reload
systemctl restart ollama

放行端口

# 放行11434端口（防火墙）
firewall-cmd --zone=public --add-port=11434/tcp --permanent
firewall-cmd --reload

# 或直接关闭防火墙（测试环境）
systemctl stop firewalld
systemctl disable firewalld

有些系统根本就没有开启（比如我）防火墙，那就无视。

部署 Open WebUI 可视化界面

安装下 Docker 环境，并确认服务器安全组 / 防火墙放行端口：3000，Ollama 正常运行，端口 11434 对外开放。

一键启动 Open WebUI 容器（核心命令）

考虑到前两天的遭遇，缙哥哥还是直接国内拉取镜像加速吧，用下面的命令替换：

mkdir -p /etc/docker
tee /etc/docker/daemon.json <<-'EOF'
{
  "registry-mirrors": [
    "https://docker.1ms.run",
    "https://hub.rat.dev"
  ]
}
EOF
systemctl daemon-reload
systemctl restart docker

如果你是海外服务器，请无视上面这一步操作。

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

参数解释

-p 3000:8080：外部访问端口 3000，浏览器 IP:3000 进入界面
–add-host=host.docker.internal:host-gateway：容器自动连通宿主机 11434 端口的 Ollama，无需手动填地址
-v open-webui:/app/backend/data：持久化存储账号、对话记录、配置，删容器数据不丢失
–restart always：服务器重启自动拉起网页面板

吐槽：你知道嘛，为了安装部署这个 Open WebUI，哪怕走了镜像加速，还是整整花了我三四天的功夫，就是反复的网络问题，反复的下载中断，我是一有空就重新执行代码部署，一有空就重新执行代码部署，预计有十几二十次。终于，皇天不负有心人……

我心心念念的可视化界面出来了！

而经过实际使用和测试，我选择的 AI 大模型似乎只使用了 25G 的内存，只有 CPU 经常 100% 的使用（因为没有显卡），所以小伙伴们可以考虑使用 32G 内存的服务器玩玩，如果部署 7B 的大模型，估计使用量更少。

如何让你的 AI 进行学习？

在 Open WebUI 中，AI 并不是像人类一样通过“阅读”来永久记忆。它的“学习”过程实际上是检索增强生成（RAG）：

上传文档：你将 PDF、Word、TXT、Markdown 等文件上传到系统。
切片与向量化：系统自动将文档切分成小块（Chunks），并计算每个块的“向量”（数学特征），存入向量数据库。
检索：当你提问时，系统先在向量数据库中搜索与你问题最相关的文档片段。
生成：系统将搜索到的片段作为“上下文”喂给大模型，模型基于这些片段回答你的问题。

结论：AI 的“知识库”就是上传并处理过的文档集合。

管理员操作指南（打造专属知识库）

步骤 1：准备你的资料

确保你手头有想要让 AI 学习的资料，格式支持：

.pdf, .txt, .md, .docx, .html, .csv, .json 等。
建议：资料越清晰、结构化越好（如 Markdown 格式的笔记、标准 PDF 文档）。

步骤 2：进入“知识库”管理界面

登录 Open WebUI。
在左侧侧边栏（或顶部菜单，取决于版本），找到并点击 “Knowledge” (知识库) 图标。
- 如果是首次使用，可能需要先创建一个新的 Knowledge Collection（知识库集合）。
点击右上角的 “Create Knowledge Collection” (创建知识库集合)。
- 名称：例如“公司技术文档”、“个人读书笔记”、“法律条文库”。
- 描述：简要说明这个库包含什么内容。
- 点击创建。

步骤 3：上传并处理文档

进入刚创建的知识库页面。
点击 “Add Files” 或拖拽文件上传。
等待处理：
- 上传后，系统会自动开始解析（Parsing）。
- 你会看到状态变化：Processing -> Indexed (已索引)。
- 注意：如果文档很大，处理可能需要几分钟。不要关闭窗口，直到状态变为绿色或显示完成。

步骤 4：验证知识是否生效

点击 “Test” 或直接在对话框中提问。
测试问题：询问你刚上传文档中的具体细节。
- 错误示范：“你是谁？”（AI 会回答它是 Open WebUI，与知识库无关）。
- 正确示范：“根据我上传的文档，我们的服务器密码策略是什么？”
观察回答：
- 如果 AI 回答正确，说明知识库已生效。
- 如果 AI 说“我不知道”，请检查文档处理是否成功（查看日志或重新上传）。

如何在对话中调用知识库

创建好知识库后，在聊天时如何让它“生效”？

方法 A：在对话中直接选择（推荐）

新建一个聊天会话（New Chat）。
在输入框上方（或侧边栏），找到 “Knowledge” (知识库) 选项卡。
勾选你刚才创建的知识库（例如“公司技术文档”）。
输入问题，AI 就会基于该库的内容回答。
- 技巧：你可以同时勾选多个知识库，AI 会综合所有库的信息回答。

方法 B：在对话设置中全局关联（管理员权限）

如果你是管理员，可以在创建特定用户或特定对话时，预设默认知识库。

进入 Settings (设置) -> Knowledge。
可以将常用知识库设为全局默认，这样所有对话默认都会检索这些内容（需谨慎，避免信息过载）。

高级配置（让 AI 学得更“聪明”）

作为管理员，你可以在 Settings (设置) -> Knowledge 或 Embedding Model (嵌入模型) 中进行高级调整：

1. 调整切片大小 (Chunk Size)

默认：通常为 500-1000 字符。
调整：
- 如果 AI 回答太短、断章取义 -> 调大切片（如 1000-2000）。
- 如果 AI 混淆了不同概念 -> 调小切片。
操作：在知识库设置中调整 Chunk Size 和 Chunk Overlap（重叠率，建议 10%-20%）。

2. 切换嵌入模型 (Embedding Model)

Open WebUI 默认使用 BGE-M3 或 nomic-embed-text（取决于安装配置）。
重要性：嵌入模型决定了 AI 对文档理解的“语义相似度”。
操作：
- 进入 Settings -> Embedding Model。
- 如果默认模型效果不好（如中文理解差），可以切换到支持中文更好的模型（如 BGE-M3 或 m3e，需确保你的服务器已下载该模型）。

3. 调整检索策略 (Retrieval Strategy)

Top K：决定每次检索返回多少个文档片段。
- 默认通常是 4-10。
- 如果问题复杂，需要更多背景，可以调高到 15-20。
- 如果回答太啰嗦，可以调低。

常见问题与排查

好吧，从购买服务器到这篇文章结尾已经折腾了一个星期了，有什么问题小伙伴们可以在下方留言，我知道的会尽量回复，前提是有时间。