惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

爱范儿
爱范儿
博客园_首页
W
WeLiveSecurity
S
Secure Thoughts
S
Security @ Cisco Blogs
Recent Commits to openclaw:main
Recent Commits to openclaw:main
Hugging Face - Blog
Hugging Face - Blog
www.infosecurity-magazine.com
www.infosecurity-magazine.com
H
Hacker News: Front Page
Project Zero
Project Zero
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
U
Unit 42
N
News and Events Feed by Topic
N
News and Events Feed by Topic
Hacker News - Newest:
Hacker News - Newest: "LLM"
Forbes - Security
Forbes - Security
T
Tor Project blog
I
Intezer
B
Blog
F
Full Disclosure
Security Archives - TechRepublic
Security Archives - TechRepublic
F
Fortinet All Blogs
Schneier on Security
Schneier on Security
T
Threat Research - Cisco Blogs
AI
AI
Google DeepMind News
Google DeepMind News
L
LINUX DO - 最新话题
Cloudbric
Cloudbric
L
Lohrmann on Cybersecurity
WordPress大学
WordPress大学
博客园 - 聂微东
雷峰网
雷峰网
P
Privacy International News Feed
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
PCI Perspectives
PCI Perspectives
Y
Y Combinator Blog
Spread Privacy
Spread Privacy
Simon Willison's Weblog
Simon Willison's Weblog
罗磊的独立博客
Vercel News
Vercel News
A
Arctic Wolf
The Register - Security
The Register - Security
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Microsoft Azure Blog
Microsoft Azure Blog
H
Heimdal Security Blog
Know Your Adversary
Know Your Adversary
P
Proofpoint News Feed
C
Cybersecurity and Infrastructure Security Agency CISA
P
Proofpoint News Feed

缙哥哥

户外活动时给妹子解决腰腿问题,妹子送我三个包 缙哥哥分享微软 Windows 常用运行库下载汇总[更新至2026.06] 国内网络复杂的让我仿佛回到了ADSL拨号上网时代 腾讯准备上线新的网盘项目——腾讯网盘,你会去用吗? 分享一款免费的记忆力训练APP程序——记忆宫殿 阿里云域名 DNS 免费版日解析量限额10万次 最近听到张含韵两首歌曲,让人回忆青春又有激情,附壁纸美照 【5月更新】每月送258天网易云音乐黑胶VIP会员,先到先得! 阿里云盘26年5月最新扩容福利码分享 京东健康邀请3个新用户,轻松1分钱领取天晟体脂称 4月28日起《暗黑破坏神®IV》- 基础版免费领取永久畅玩 迅雷旗下光鸭云盘正式上线,免费用户2T空间可做同步备份 第七波:赠送一年正版IObit Driver Booster Pro驱动安装神器激活码 第15波:赠送一年正版 IObit Uninstaller Pro 软件卸载神器激活码 第三波:限时送数据恢复软件 iTop Data Recovery 一年正版授权 服务器SSH被暴力破解150余万次,磁盘读写和负载直接拉满
零基础部署私人AI:云服务器部署Ollama和AI大模型
缙哥哥 · 2026-06-23 · via 缙哥哥

搞一台 64G 内存的电脑成本太高,还要其他硬件和电费,缙哥哥这次玩的是速维云。如果你觉得下面每一个步骤都看不懂,并且也不想懂(只想玩)的话,可以联系缙哥哥帮忙部署。

开通好云服务器之后,通过 SSH 连接服务器之后,直接甩个命令上去,先把 Ollama(起到了本地大模型运行平台和管理工具的核心作用,它把复杂的模型权重、配置和运行环境打包成一个统一的单元,只需一条命令就能开箱即用)装好再说!

curl -fsSL https://ollama.com/install.sh | sh  

如果是国内服务器,可以先看看下载速度如何,如果过慢,建议还是套个转发,别像缙哥哥这样浪费了两三天时间。

下载后会自动执行解压并安装。

>>> Cleaning up old version at /usr/local/lib/ollama
>>> Installing ollama to /usr/local
>>> Downloading ollama-linux-amd64.tar.zst
######################################################################## 100.0%
>>> Creating ollama user...
>>> Adding ollama user to render group...
>>> Adding ollama user to video group...
>>> Adding current user to ollama group...
>>> Creating ollama systemd service...
>>> Enabling and starting ollama service...
Created symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.
>>> The Ollama API is now available at 127.0.0.1:11434.
>>> Install complete. Run "ollama" from the command line.
WARNING: No NVIDIA/AMD GPU detected. Ollama will run in CPU-only mode.

由于缙哥哥用的是云服务器,没有显卡,只能基于 CPU 运行。

选择AI大模型

由于本次玩的是 64G 内存的服务器,只能依靠 CPU 进行推理,纯 CPU 运行大模型的特点是速度相对较慢(生成文字会有“打字机”效果),但成本极低且能处理复杂任务。也就意味着有两个选择:

一、体验“满血”大模型(30B – 35B 参数)

有 64G 内存,可以直接运行参数量在 30B 以上的大型模型,这类模型在逻辑推理、长文本理解和代码能力上表现极佳:

  1. Qwen3.5-35B MoE:这款模型非常适合你。它采用了 MoE(混合专家)架构,虽然总参数量高达 34.7B,但每次推理时只激活极少部分参数。配合 IQ2_M 量化技术,它只需要约 11GB 内存,在服务器上运行毫无压力,且效果出众。
  2. DeepSeek-R1-Distill-Qwen-32B:这款模型在数学和代码任务上表现优异,32B 的参数量在你的内存支持下可以流畅运行,非常适合用来做代码助手或复杂逻辑推理。

二、追求极致响应速度(7B – 8B 参数)

如果你觉得 30B 以上模型生成文字的速度太慢,希望追求更快的响应体验,可以选择 7B 左右的轻量级模型。它们在你的服务器上运行速度会快很多:

  1. Qwen1.5-1.8B-Chat/Qwen-7B:Qwen 系列对中文支持极好,1.8B 版本极其轻量,7B 版本在速度和智能之间取得了很好的平衡。
  2. Mistral-7B:性能优秀的开源模型,支持多语言,对硬件要求低,非常适合日常对话和文本处理。

最终我选择了 Qwen3.5-35B 大模型,如果后面感觉反应太慢,再考虑切换 Qwen-7B 大模型。

下载部署AI大模型

由于我用的是国内的服务器,国内直连官方源较慢,缙哥哥利用国内的魔搭(ModelScope)或 HuggingFace 镜像来加速下载。

# 使用魔搭社区镜像拉取(国内服务器首选)
ollama run modelscope.cn/unsloth/Qwen3.5-35B-A3B-GGUF:MXFP4_MOE

# 或者使用 HuggingFace 国内镜像站
ollama run hf-mirror.com/unsloth/Qwen3.5-35B-A3B-GGUF:MXFP4_MOE

缙哥哥用魔搭直接速度拉满,太爽了!

根据你自己选择的大模型大小,慢慢等待即可。

好了!私人AI已经跑起来了。直接在命令行里跟它聊天,想聊多久聊多久。缙哥哥简单问了几个问题,但是回答的内容有点不太聪明(牛头不对马嘴)的样子。

开通远程访问AI

配置环境变量

编辑 /etc/profile (不会的小伙伴可以参见《Linux 文本编辑器 Vim “真 · 简单”使用教程》)

vi /etc/profile

末尾添加(允许所有 IP 访问)

export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_ORIGINS=*

生效

source /etc/profile

修改服务文件(添加环境变量),也可以用 FinalShell 软件直接双击修改。

vi /etc/systemd/system/ollama.service

在 [Service] 下添加 2 行:

Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"

重载+重启服务 +

# 重载+重启
systemctl daemon-reload
systemctl restart ollama

放行端口

# 放行11434端口(防火墙)
firewall-cmd --zone=public --add-port=11434/tcp --permanent
firewall-cmd --reload

# 或直接关闭防火墙(测试环境)
systemctl stop firewalld
systemctl disable firewalld

有些系统根本就没有开启(比如我)防火墙,那就无视。

部署 Open WebUI 可视化界面

安装下 Docker 环境,并确认服务器安全组 / 防火墙放行端口:3000,Ollama 正常运行,端口 11434 对外开放。

一键启动 Open WebUI 容器(核心命令)

考虑到前两天的遭遇,缙哥哥还是直接国内拉取镜像加速吧,用下面的命令替换:

mkdir -p /etc/docker
tee /etc/docker/daemon.json <<-'EOF'
{
  "registry-mirrors": [
    "https://docker.1ms.run",
    "https://hub.rat.dev"
  ]
}
EOF
systemctl daemon-reload
systemctl restart docker

如果你是海外服务器,请无视上面这一步操作。

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

参数解释

  • -p 3000:8080:外部访问端口 3000,浏览器 IP:3000 进入界面
  • –add-host=host.docker.internal:host-gateway:容器自动连通宿主机 11434 端口的 Ollama,无需手动填地址
  • -v open-webui:/app/backend/data:持久化存储账号、对话记录、配置,删容器数据不丢失
  • –restart always:服务器重启自动拉起网页面板

吐槽:你知道嘛,为了安装部署这个 Open WebUI,哪怕走了镜像加速,还是整整花了我三四天的功夫,就是反复的网络问题,反复的下载中断,我是一有空就重新执行代码部署,一有空就重新执行代码部署,预计有十几二十次。终于,皇天不负有心人……

我心心念念的可视化界面出来了!

而经过实际使用和测试,我选择的 AI 大模型似乎只使用了 25G 的内存,只有 CPU 经常 100% 的使用(因为没有显卡),所以小伙伴们可以考虑使用 32G 内存的服务器玩玩,如果部署 7B 的大模型,估计使用量更少。

如何让你的 AI 进行学习?

在 Open WebUI 中,AI 并不是像人类一样通过“阅读”来永久记忆。它的“学习”过程实际上是检索增强生成(RAG)

  1. 上传文档:你将 PDF、Word、TXT、Markdown 等文件上传到系统。
  2. 切片与向量化:系统自动将文档切分成小块(Chunks),并计算每个块的“向量”(数学特征),存入向量数据库。
  3. 检索:当你提问时,系统先在向量数据库中搜索与你问题最相关的文档片段。
  4. 生成:系统将搜索到的片段作为“上下文”喂给大模型,模型基于这些片段回答你的问题。

结论:AI 的“知识库”就是上传并处理过的文档集合

管理员操作指南(打造专属知识库)

步骤 1:准备你的资料

确保你手头有想要让 AI 学习的资料,格式支持:

  • .pdf, .txt, .md, .docx, .html, .csv, .json 等。
  • 建议:资料越清晰、结构化越好(如 Markdown 格式的笔记、标准 PDF 文档)。

步骤 2:进入“知识库”管理界面

  1. 登录 Open WebUI。
  2. 在左侧侧边栏(或顶部菜单,取决于版本),找到并点击 “Knowledge” (知识库) 图标。
    • 如果是首次使用,可能需要先创建一个新的 Knowledge Collection(知识库集合)。
  3. 点击右上角的 “Create Knowledge Collection” (创建知识库集合)。
    • 名称:例如“公司技术文档”、“个人读书笔记”、“法律条文库”。
    • 描述:简要说明这个库包含什么内容。
    • 点击创建

步骤 3:上传并处理文档

  1. 进入刚创建的知识库页面。
  2. 点击 “Add Files” 或拖拽文件上传。
  3. 等待处理
    • 上传后,系统会自动开始解析(Parsing)。
    • 你会看到状态变化:Processing -> Indexed (已索引)。
    • 注意:如果文档很大,处理可能需要几分钟。不要关闭窗口,直到状态变为绿色或显示完成。

步骤 4:验证知识是否生效

  1. 点击 “Test” 或直接在对话框中提问。
  2. 测试问题:询问你刚上传文档中的具体细节。
    • 错误示范:“你是谁?”(AI 会回答它是 Open WebUI,与知识库无关)。
    • 正确示范:“根据我上传的文档,我们的服务器密码策略是什么?”
  3. 观察回答
    • 如果 AI 回答正确,说明知识库已生效。
    • 如果 AI 说“我不知道”,请检查文档处理是否成功(查看日志或重新上传)。

如何在对话中调用知识库

创建好知识库后,在聊天时如何让它“生效”?

方法 A:在对话中直接选择(推荐)

  1. 新建一个聊天会话(New Chat)。
  2. 在输入框上方(或侧边栏),找到 “Knowledge” (知识库) 选项卡。
  3. 勾选 你刚才创建的知识库(例如“公司技术文档”)。
  4. 输入问题,AI 就会基于该库的内容回答。
    • 技巧:你可以同时勾选多个知识库,AI 会综合所有库的信息回答。

方法 B:在对话设置中全局关联(管理员权限)

如果你是管理员,可以在创建特定用户或特定对话时,预设默认知识库。

  1. 进入 Settings (设置) -> Knowledge
  2. 可以将常用知识库设为全局默认,这样所有对话默认都会检索这些内容(需谨慎,避免信息过载)。

高级配置(让 AI 学得更“聪明”)

作为管理员,你可以在 Settings (设置) -> KnowledgeEmbedding Model (嵌入模型) 中进行高级调整:

1. 调整切片大小 (Chunk Size)

  • 默认:通常为 500-1000 字符。
  • 调整
    • 如果 AI 回答太短、断章取义 -> 调大切片(如 1000-2000)。
    • 如果 AI 混淆了不同概念 -> 调小切片。
  • 操作:在知识库设置中调整 Chunk SizeChunk Overlap(重叠率,建议 10%-20%)。

2. 切换嵌入模型 (Embedding Model)

  • Open WebUI 默认使用 BGE-M3nomic-embed-text(取决于安装配置)。
  • 重要性:嵌入模型决定了 AI 对文档理解的“语义相似度”。
  • 操作
    • 进入 Settings -> Embedding Model
    • 如果默认模型效果不好(如中文理解差),可以切换到支持中文更好的模型(如 BGE-M3m3e,需确保你的服务器已下载该模型)。

3. 调整检索策略 (Retrieval Strategy)

  • Top K:决定每次检索返回多少个文档片段。
    • 默认通常是 4-10。
    • 如果问题复杂,需要更多背景,可以调高到 15-20。
    • 如果回答太啰嗦,可以调低。

常见问题与排查

好吧,从购买服务器到这篇文章结尾已经折腾了一个星期了,有什么问题小伙伴们可以在下方留言,我知道的会尽量回复,前提是有时间。