























这篇文章补充对比 gemini-2.5-flash 和 qwen3-vl-plus 的图片理解表现。测试统一使用 Crazyrouter Base URL:
请求格式是 OpenAI 兼容 chat/completions,图片通过 messages[].content[] 里的 image_url 传入。每个模型测试两张公开图片:Python logo 与 GitHub logo;每张图跑 3 次,所以每个模型共 6 次请求。
测试时间:
2026-06-21T13:36:32Z。这是实测结果,不是模型官网介绍。

gemini-2.5-flash 识图正确 0/6;qwen3-vl-plus 识图正确 6/6。 gemini-2.5-flash 虽然 HTTP 全部成功,但本轮没有正确识别图片,且出现了 image token 缺失 / 错识别 / 空回复等信号,不建议作为当前 image_url 图片理解默认路由。 如果这是线上图片理解任务,优先选择 qwen3-vl-plus,不要只看 HTTP 200。
快速建议:
qwen3-vl-plusgemini-2.5-flash 本轮不建议用于 image_url 图片理解默认路由代码里的 API endpoint 不加 UTM。人看的链接才加 UTM,例如 Crazyrouter 官网。
| 指标 | gemini-2.5-flash | qwen3-vl-plus |
|---|---|---|
| HTTP 成功 | 6/6 | 6/6 |
| 识别正确 | 0/6 | 6/6 |
| no-image 回复 | 1 | 0 |
| 平均延迟 | 4.965s | 3.859s |
| 中位延迟 | 4.333s | 3.729s |
| 最快请求 | 1.467s | 3.423s |
| 最慢请求 | 9.507s | 4.821s |
| 输入价(USD / 1M tokens) | $0.17 | $0.1429 |
| 输出价(USD / 1M tokens) | $0.68 | $1.4286 |

| 任务 | 模型 | 输出样例 | 延迟 | Prompt tokens |
|---|---|---|---|---|
logo_python | gemini-2.5-flash | Please upload an image for analysis. No image provided. | 4.402s | 27 |
logo_python | qwen3-vl-plus | The main logo in the image is the Python programming language logo. | 3.842s | 176 |
logo_github | gemini-2.5-flash | A logo of the Canadian Broadcasting Corporation (CBC). | 9.507s | 27 |
logo_github | qwen3-vl-plus | The image shows the GitHub logo. | 4.821s | 176 |
图片理解链路里,HTTP 状态码只能说明请求被接口接受并返回了响应。它不能证明模型真的看到了图片。
这次 Gemini 补测尤其说明了这一点:gemini-2.5-flash 返回了 200,但输出出现了“未提供图片”、CBC logo、飞船等错误结果;usage 里也能看到 prompt token / image token 信号异常。因此文章里把“识别正确率”和“no-image 回复”单独列出来,而不是只看请求是否成功。
gemini-2.5-flash 的定位:Gemini Flash 常用于低价多模态,但本轮 image_url 路由没有正确识图。
qwen3-vl-plus 的定位:质量优先的 Qwen VL 路线,适合比 flash 更重的视觉理解。
建议在生产里按任务分层:
image_url 是上游 URL 透传,还是网关下载后转 inline/base64。qwen3-vl-plusgemini-2.5-flash 本轮不建议用于 image_url 图片理解默认路由如果你要复现测试,可以直接使用:
更多模型价格可以看 Crazyrouter Pricing。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。