
























感觉aistupidlevel 这个榜不能完全的反映出当下模型能力评分,至少是没充钱这样用下来是这样。 而且不清楚评分的时效性是怎么算的,外面榜单的这个评分是一个评分 然后点进去具体模型的评分此时此刻是一样的(现在 opus 4.8 外面和明细显示 06-19 10 点 的综合评分是 62),直到下个时点评分出来之后,在明细里面看回 10 点的评分他就不是当初 62 了。 并且最右边的多指标综合评分跟中间榜单不一样的,我理解是这个体现的是模型上限,显示的是最新一次单测的模型能力,但是持续观察下来发现这边的评分是很稳定的。那么中间榜单的评分又是怎么加权算出来的,这很难理解。 或者是我对各项数据指标理解有问题,也希望佬们多指正,主要是想问问佬们对这个站的数据有什么看法。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。