惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Simon Willison's Weblog
Simon Willison's Weblog
P
Privacy International News Feed
www.infosecurity-magazine.com
www.infosecurity-magazine.com
T
Troy Hunt's Blog
Hacker News - Newest:
Hacker News - Newest: "LLM"
Attack and Defense Labs
Attack and Defense Labs
S
Secure Thoughts
V2EX - 技术
V2EX - 技术
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
O
OpenAI News
Cloudbric
Cloudbric
Google Online Security Blog
Google Online Security Blog
Schneier on Security
Schneier on Security
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Help Net Security
Help Net Security
Cyberwarzone
Cyberwarzone
G
GRAHAM CLULEY
L
Lohrmann on Cybersecurity
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Spread Privacy
Spread Privacy
NISL@THU
NISL@THU
N
News and Events Feed by Topic
T
Tenable Blog
S
Security @ Cisco Blogs
N
News and Events Feed by Topic
The Hacker News
The Hacker News
C
CXSECURITY Database RSS Feed - CXSecurity.com
宝玉的分享
宝玉的分享
月光博客
月光博客
酷 壳 – CoolShell
酷 壳 – CoolShell
美团技术团队
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google DeepMind News
Google DeepMind News
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
T
Tailwind CSS Blog
V
Visual Studio Blog
P
Proofpoint News Feed
Webroot Blog
Webroot Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
博客园 - 三生石上(FineUI控件)
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Jina AI
Jina AI
雷峰网
雷峰网
T
The Blog of Author Tim Ferriss
Hugging Face - Blog
Hugging Face - Blog
腾讯CDC
L
LangChain Blog
The Register - Security
The Register - Security
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - 聂微东

蔡不菜和他的uU们

使用acme.sh进行阿里云域名SSL证书申请与部署自动化 OCR实践—PaddleOCR-VL-1.5 OCR实践—PaddlOCR-VL OCR新范式 2025年终总结-选择,未知的路 CUDA TensorRT Python智能提示补全解决方案 阿里云实例迁移、IP换绑 VS大型CPP项目调试,Debug模式,Release模式,附加到进程模式 NVIDIA相关库简介 2024已结算,万象新始,远虑近忧 OCR实践-Table-Transformer
vLLM实践之个人AI基建——云端vLLM+SSH Tunnel+本地Cherry Studio
()x · 2026-06-06 · via 蔡不菜和他的uU们

在云端运行 vLLM 服务后,可通过 SSH Tunnel 将远程 OpenAI-Compatible API 映射到本地,整个方案可作为个人 AI 基础设施的底层架构。

一、整体架构

整体架构如下:

┌─────────────────────┐
│ 本地 Cherry Studio  │
└─────────┬───────────┘
          │
          │ OpenAI API
          ▼
┌─────────────────────┐
│ localhost:8000      │
│ SSH Tunnel          │
└─────────┬───────────┘
          │ SSH Port Forward
          ▼
┌─────────────────────┐
│ 云端 GPU 服务器      │
│ vLLM API Server     │
│ RTX 4090D / xxx     │
└─────────────────────┘

远程服务器负责:

  • 模型推理,KV Cache 管理,OpenAI-Compatible API

本地仅负责:

  • UI,Prompt 输入,API 调用

这种架构的优点:

  • 本地资源占用极低,模型统一管理,服务可复用,易于扩展 Agent / RAG / MCP

缺点吗?就是云端运行需要money,选4090D 24G这样的配置,一天的话也得 1.88 * 12 约等于 20;

但在某些场景下,这种云端运行是必要的

二、云端环境准备

使用 AutoDL 平台,创建实例时选择 vllm-0.20.0 镜像,下载模型

细节可查看镜像README

uv 环境管理

uv 提供了一个隔离环境,使用 uv 安装包

uv pip install xxx

启动命令

vllm serve /autodl-tmp/your_model_dir \
  --host 127.0.0.1 \
  --port 8000

验证 API 服务

1、健康检查

curl http://127.0.0.1:8000/health

2、查看模型

curl http://127.0.0.1:8000/v1/models

返回类似如下:

{
  "data": [
    {
      "id": "/root/Qwen3-0.6B/"
    }
  ]
}

这里的 id 就是后续客户端必须使用的 model name。

四、SSH Tunnel:将远程 API 映射到本地

命令行方式

本地执行:

ssh -L 8000:127.0.0.1:8000 user@server

含义:

本地 localhost:8000
    ↓
远程 127.0.0.1:8000

此时,本地实际上已经拥有:

http://127.0.0.1:8000/v1

这个 OpenAI-Compatible API。

GUI方式

使用 Autodl-SSH tools 工具,填写后点击开始代理即可

img

autossh 保持长连接

可自行学习这个工具

普通 SSH 可能断开,推荐:

autossh -M 0 -N \
  -L 8000:127.0.0.1:8000 \
  user@server

特点:自动重连、后台保活、长期稳定运行

五、Cherry Studio 接入

Cherry Studio 是目前体验较好的本地 AI 工作台之一。

支持:OpenAI API、Claude、Gemini、本地模型、MCP

并且:对 OpenAI-Compatible API 支持良好。


Cherry Studio 配置

Cherry Studio 配置

Provider:选择 OpenAI,不要选择,Claude / Anthropic,因为,vLLM 实现的是OpenAI API 而不是Anthropic Messages API

Base URL:填写:http://127.0.0.1:8000/v1

API Key (vLLM 默认不校验):sk-ccuu

点击获取模型列表,然后添加启用

获取模型列表

开始对话

对话

六、总结

至此:

  • 模型运行在远程 GPU
  • 本地零显存占用
  • Cherry Studio 可直接对话
  • OpenAI SDK 可直接调用
  • 全链路无需公网开放

这套方案已经足以构建一个稳定的个人 AI 基础设施。

可进一步扩展方向(探索ing)

  1. 多模型路由

例如:Qwen、DeepSeek、Llama、Mistral

统一通过 vLLM 暴露。

  1. RAG

接入:Open WebUI 、AnythingLLM、Dify

  1. MCP / Agent

Cherry Studio 已支持 MCP。

后续可以:文件系统、浏览器、Shell、知识库 全部接入。

七、其他

!!!有疑问,欢迎加群【392784757】进行问题与技术交流讨论!!!