




















这是一个创建于 531 天前的主题,其中的信息可能已经有所发展或是发生改变。
V2EX 除了节点之外,也会根据主题内容生成 3 个 tag 。
之前这个系统用的是 Boson NLP 提供的服务,不过他们后来停止了这个 API 服务。
然后这件事情就搁置了一段时间。
最近用 vLLM 部署了 Qwen2.5-Coder-32B-Instruct ,然后尝试用 prompt 的方式来为主题生成标签。虽然某些时候会产生无限循环,但是大部分情况下效果很不错。
目前大概 2 - 3 秒可以分析完一个主题并生成 3 个 tag 。
1 Tubbs 2024 年 12 月 30 日 via AndroidvLLM 部署确实很方便,用的什么设备部署的呢? |
3 Donaldo 2024 年 12 月 30 日同一张卡,同一个 CUDA 版本,vllm 我实测比 ollama 快几个 token/s 。 |
4 Livid 2024 年 12 月 30 日@yangyaofei 也试过 Llama 和 QwQ-32B-Preview Llama 会在输入是中文内容的情况,依然给出英文结果。 QwQ 的输出结果大部分情况下太自由发挥了。 Qwen2.5-Coder 的结果是最稳定的。 Google 的 Gemini 2.0 效果也很好,但是免费额度和频率限制不太够用。 |
5 Livid 2024 年 12 月 30 日另外一个考虑就是因为这里大部分的内容,估计和 Coder 的训练内容也是重合的。 |
8 scys 2024 年 12 月 30 日好想 => 好像,感觉 Prompt 可以提供例子,可能会更加准确。我现在用的 Flux Prompt 构建器,提供例子会更加准确。仅作参考,不是 Prompt 达人。 |
10 musi 2024 年 12 月 30 日 via iPhone除了标签之外 v2 有考虑使用 embedding 做语义化搜索帖子的功能吗 |
11 yangyaofei 2024 年 12 月 31 日@Livid #4 哦, qwq llama 肯定是不行的, 前者是尽量 CoT 会输出很多中间过程, llama 个代都对中文支持很不好, 我想说的是比如 qwen2.5-instruct 这种非 coder 模型. 如果显存够的话, 65B 的 4bit 量化模型性能很不错的 生成原文没有的词挺正常的, 毕竟生成模型, 而且也不一定影响结果的正确, 想避免的话可以 prompt 加入用原文的词的设定, 想进一步控制的话, 可能性能就下降很多了(比如前面的 Guided 方式也可以实现) |
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。