





























在云端运行 vLLM 服务后,可通过 SSH Tunnel 将远程 OpenAI-Compatible API 映射到本地,整个方案可作为个人 AI 基础设施的底层架构。
整体架构如下:
┌─────────────────────┐
│ 本地 Cherry Studio │
└─────────┬───────────┘
│
│ OpenAI API
▼
┌─────────────────────┐
│ localhost:8000 │
│ SSH Tunnel │
└─────────┬───────────┘
│ SSH Port Forward
▼
┌─────────────────────┐
│ 云端 GPU 服务器 │
│ vLLM API Server │
│ RTX 4090D / xxx │
└─────────────────────┘
远程服务器负责:
本地仅负责:
这种架构的优点:
缺点吗?就是云端运行需要money,选4090D 24G这样的配置,一天的话也得 1.88 * 12 约等于 20;
但在某些场景下,这种云端运行是必要的
使用 AutoDL 平台,创建实例时选择 vllm-0.20.0 镜像,下载模型
细节可查看镜像README
uv 提供了一个隔离环境,使用 uv 安装包
uv pip install xxx
vllm serve /autodl-tmp/your_model_dir \
--host 127.0.0.1 \
--port 8000
1、健康检查
curl http://127.0.0.1:8000/health
2、查看模型
curl http://127.0.0.1:8000/v1/models
返回类似如下:
{
"data": [
{
"id": "/root/Qwen3-0.6B/"
}
]
}
这里的 id 就是后续客户端必须使用的 model name。
本地执行:
ssh -L 8000:127.0.0.1:8000 user@server
含义:
本地 localhost:8000
↓
远程 127.0.0.1:8000
此时,本地实际上已经拥有:
http://127.0.0.1:8000/v1
这个 OpenAI-Compatible API。
使用 Autodl-SSH tools 工具,填写后点击开始代理即可

可自行学习这个工具
普通 SSH 可能断开,推荐:
autossh -M 0 -N \
-L 8000:127.0.0.1:8000 \
user@server
特点:自动重连、后台保活、长期稳定运行
Cherry Studio 是目前体验较好的本地 AI 工作台之一。
支持:OpenAI API、Claude、Gemini、本地模型、MCP
并且:对 OpenAI-Compatible API 支持良好。

Provider:选择 OpenAI,不要选择,Claude / Anthropic,因为,vLLM 实现的是OpenAI API 而不是Anthropic Messages API
Base URL:填写:http://127.0.0.1:8000/v1
API Key (vLLM 默认不校验):sk-ccuu
点击获取模型列表,然后添加启用

开始对话

至此:
这套方案已经足以构建一个稳定的个人 AI 基础设施。
例如:Qwen、DeepSeek、Llama、Mistral
统一通过 vLLM 暴露。
接入:Open WebUI 、AnythingLLM、Dify
Cherry Studio 已支持 MCP。
后续可以:文件系统、浏览器、Shell、知识库 全部接入。
!!!有疑问,欢迎加群【392784757】进行问题与技术交流讨论!!!
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。