vLLM实践之个人AI基建——云端vLLM+SSH Tunnel+本地Cherry Studio

推荐订阅源

Simon Willison's Weblog

Privacy International News Feed

www.infosecurity-magazine.com

Troy Hunt's Blog

Hacker News - Newest: "LLM"

Attack and Defense Labs

Secure Thoughts

V2EX - 技术

cs.AI updates on arXiv.org

OpenAI News

Cloudbric

Google Online Security Blog

Schneier on Security

cs.CV updates on arXiv.org

Help Net Security

Cyberwarzone

GRAHAM CLULEY

Lohrmann on Cybersecurity

Threat Intelligence Blog | Flashpoint

Spread Privacy

NISL@THU

News and Events Feed by Topic

Tenable Blog

Security @ Cisco Blogs

News and Events Feed by Topic

The Hacker News

CXSECURITY Database RSS Feed - CXSecurity.com

月光博客

让小产品的独立变现更简单 - ezindie.com

博

博客园 - 三生石上(FineUI控件)

cs.CL updates on arXiv.org

Jina AI

雷峰网

The Blog of Author Tim Ferriss

The Register - Security

OSCHINA 社区最新新闻

博

博客园 - 聂微东

蔡不菜和他的uU们

使用acme.sh进行阿里云域名SSL证书申请与部署自动化 OCR实践—PaddleOCR-VL-1.5 OCR实践—PaddlOCR-VL OCR新范式 2025年终总结-选择，未知的路 CUDA TensorRT Python智能提示补全解决方案阿里云实例迁移、IP换绑 VS大型CPP项目调试，Debug模式，Release模式，附加到进程模式 NVIDIA相关库简介 2024已结算，万象新始，远虑近忧 OCR实践-Table-Transformer

vLLM实践之个人AI基建——云端vLLM+SSH Tunnel+本地Cherry Studio

()x · 2026-06-06 · via 蔡不菜和他的uU们

在云端运行 vLLM 服务后，可通过 SSH Tunnel 将远程 OpenAI-Compatible API 映射到本地，整个方案可作为个人 AI 基础设施的底层架构。

一、整体架构

整体架构如下：

┌─────────────────────┐
│ 本地 Cherry Studio  │
└─────────┬───────────┘
          │
          │ OpenAI API
          ▼
┌─────────────────────┐
│ localhost:8000      │
│ SSH Tunnel          │
└─────────┬───────────┘
          │ SSH Port Forward
          ▼
┌─────────────────────┐
│ 云端 GPU 服务器      │
│ vLLM API Server     │
│ RTX 4090D / xxx     │
└─────────────────────┘

远程服务器负责：

模型推理，KV Cache 管理，OpenAI-Compatible API

本地仅负责：

UI，Prompt 输入，API 调用

这种架构的优点：

本地资源占用极低，模型统一管理，服务可复用，易于扩展 Agent / RAG / MCP

缺点吗？就是云端运行需要money，选4090D 24G这样的配置，一天的话也得 1.88 * 12 约等于 20；

但在某些场景下，这种云端运行是必要的

二、云端环境准备

使用 AutoDL 平台，创建实例时选择 vllm-0.20.0 镜像，下载模型

细节可查看镜像README

uv 环境管理

uv 提供了一个隔离环境，使用 uv 安装包

uv pip install xxx

启动命令

vllm serve /autodl-tmp/your_model_dir \
  --host 127.0.0.1 \
  --port 8000

验证 API 服务

1、健康检查

curl http://127.0.0.1:8000/health

2、查看模型

curl http://127.0.0.1:8000/v1/models

返回类似如下：

{
  "data": [
    {
      "id": "/root/Qwen3-0.6B/"
    }
  ]
}

这里的 id 就是后续客户端必须使用的 model name。

四、SSH Tunnel：将远程 API 映射到本地

命令行方式

本地执行：

ssh -L 8000:127.0.0.1:8000 user@server

含义：

本地 localhost:8000
    ↓
远程 127.0.0.1:8000

此时，本地实际上已经拥有：

http://127.0.0.1:8000/v1

这个 OpenAI-Compatible API。

GUI方式

使用 Autodl-SSH tools 工具，填写后点击开始代理即可

autossh 保持长连接

可自行学习这个工具

普通 SSH 可能断开，推荐：

autossh -M 0 -N \
  -L 8000:127.0.0.1:8000 \
  user@server

特点：自动重连、后台保活、长期稳定运行

五、Cherry Studio 接入

Cherry Studio 是目前体验较好的本地 AI 工作台之一。

支持：OpenAI API、Claude、Gemini、本地模型、MCP

并且：对 OpenAI-Compatible API 支持良好。

Cherry Studio 配置

Provider：选择 OpenAI，不要选择，Claude / Anthropic，因为，vLLM 实现的是OpenAI API 而不是Anthropic Messages API

Base URL：填写：http://127.0.0.1:8000/v1

API Key （vLLM 默认不校验）：sk-ccuu

点击获取模型列表，然后添加启用

获取模型列表

开始对话

六、总结

至此：

模型运行在远程 GPU
本地零显存占用
Cherry Studio 可直接对话
OpenAI SDK 可直接调用
全链路无需公网开放

这套方案已经足以构建一个稳定的个人 AI 基础设施。

可进一步扩展方向（探索ing）

多模型路由

例如：Qwen、DeepSeek、Llama、Mistral

统一通过 vLLM 暴露。

接入：Open WebUI 、AnythingLLM、Dify

MCP / Agent

Cherry Studio 已支持 MCP。

后续可以：文件系统、浏览器、Shell、知识库全部接入。

七、其他

！！！有疑问，欢迎加群【392784757】进行问题与技术交流讨论！！！

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。