




























首先根据官方文档里的这条命令下载
curl -L https://github.com/openvinotoolkit/model_server/releases/download/v2025.3/ovms_windows_python_on.zip -o ovms.zip
tar -xf ovms.zip
运行这条命令 .\ovms\setupvars.bat
运行这条命令启动模型服务
ovms.exe --source_model OpenVINO/Qwen3-0.6B-fp16-ov --model_repository_path models --rest_port 8000 --task text_generation --target_device GPU --cache_size 2
首次运行的话会下载指定的模型,时间可能需要有点长,等待下载完之后下次运行的时候就会自动使用了。如果你要使用别的模型的话,你就更改里面的OpenVINO/Qwen3-0.6B-fp16-ov这个部分就可以;如果要以CPU或NPU模式运行的话,就把里面的GPU换掉就好。
测试模型是否可以成功使用的话可以使用如下这条命令,注意端口和模型名称要和你的对应
curl -s http://localhost:8000/v3/chat/completions
-H "Content-Type: application/json"
-d '{
"model": "OpenVINO/Qwen3-0.6B-fp16-ov",
"temperature": 0,
"stream": false,
"messages": [
{ "role": "system", "content": "You are a helpful assistant. /no_think" },
{ "role": "user", "content": "What are the 3 main tourist attractions in Paris" }
]
}'
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。