Работает ли Caveman? Тестируем модный скилл для экономии токенов

Недавно копайлот перешёл на новую тарификацию, из-за которой я упёрся в месячные лимиты буквально за первую рабочую неделю. В рабочих чатиках все стали искать способ экономить токены, и среди разных предложений стабильно мелькал скилл под названием Caveman.

Что он обещает? Идея простая — скилл указывает нейронке говорить, как пещерный человек, убирать артикли, говорить коротко и думать лаконично. На первых строках README обещается экономия до 75%. При этом без потери качества!

Кажется круто и интуитивно понятно — говоришь короче, значит, токенов тратится меньше. Но внутри меня засело сомнение. Уж слишком это всё попахивает каким-то скамом. Будь это так просто, разработчики агентных систем уже бы, скорее всего, и сами включили что-то подобное.

Ещё одна вещь, которая настораживает и раздражает меня в таких чудо-репозиториях, — это график звёздочек.

В целом, понятно желание автора попонтоваться, тем не менее, раньше популярные репозитории таких графиков не выставляли.

Да и зачем это вообще нужно? У меня есть одно предположение, думаю, в конце статьи его выскажу.

А пока я решил протестировать этого caveman'а, потому что на удивление в интернете не оказалось бенчмарков. Только исследования самого автора и пара комментов на реддите, что мол всё работает.

Как тестировал

Вообще довольно сложно придумать какой-то показательный тест. Раньше, пока модельки были попроще, достаточно было попросить написать кусочек кода и оценить его. Но сейчас, в общем-то, это уже не показатель. Ещё в идеале запускать два разных варианта одного и того же промпта на одинаковых задачах.

И вот ещё что: мне показалось, что caveman просто обязан ухудшить качество размышлений моделей. А как следствие — ударить по качеству более абстрактных задач.

Поэтому я придумал такой тестовый промпт:

Сделай мне в новой папке игру про огромного робота с видом сверху, папку положи в папку games. Не задавай мне вопросов, делай так, чтобы получилось интересно и необычно. Сделай задачу до конца.

В итоге было интересно посмотреть на две вещи — качество самой игры, а ещё — потраченное время и токены.

Для разнообразия запускал бенчмарки на двух моделях при отключённой памяти у клода. Итого получился такой набор тестов:

Opus 4.8
Opus 4.8 With Caveman
Sonnet 4.6
Sonnet 4.6 With Caveman

На выходе получилось 4 игры.

По самим играм:

▪️Игра от Opus 4.8 With Caveman вышла плохой. С кучей ошибок и геймплейных проблем. А вот у Opus 4.8, я бы сказал, вышло на порядок лучше. Он даже добавил прогрессию. Правда, она заключалась в том, что робот просто растет. Но в целом игра смотрится просто нормально.

▪️Игры от Sonnet получились хуже, а игра от Sonnet With Caveman вообще не запустилась.

Итого, по качеству решений Caveman только все ухудшил.

С играми можно ознакомиться и поиграть в каждую ниже, дабы убедиться в качестве лично:

Opus 4.8 — COLOSSUS

Opus 4.8 With Caveman — COLOSSUS-С

Sonnet 4.6 — TITAN-X7

Sonnet 4.6 With Caveman — TITAN

А что по токенам?

С качеством не задалось, окей. Но может хоть токены сэкономим?

Конфигурация	Токены	Время
Sonnet 4.6	42.2k tokens	16m 12s
Sonnet 4.6 With Caveman	52k tokens	12m 50s
Opus 4.8	32.5k tokens	5m 16s
Opus 4.8 With Caveman	29k tokens	4m 34s

На Sonnet я запускал тесты ещё раз, потому что меня удивило, что в реальности токены не только не экономились, но ещё и затрачивались больше! Результат второго теста был примерно такой же.

Конфигурация	Токены	Время
Sonnet 4.6	40.3k tokens	15m 36s
Sonnet 4.6 With Caveman	59.1k tokens	12m 50s

На Opus и правда была небольшая экономия, но во-первых, не 75%, а во-вторых, качество просело значительно!

В общем, и тут я бы констатировал промах.

Как итог

На мой взгляд, caveman — это очередной нейрослопный скам, который попросту не работает. Как сказал мой коллега: обычный Be brief в самом начале AGENTS.md работает лучше.

Мне кажется, что такие штуки, как Caveman, раскручиваются по такой схеме:

Делается проект.
На него закупаются звёзды на гитхаб.
Создается пост в твиттере, мол я запилил проект с кучей звёзд.
Настраивается SEO, чтобы загугливший бенчмарки человек получал строго положительные отчёты.
А дальше оно уже живёт само, разносится по ютубу и прочим соцсеткам.
Автор получает хайп, раскачивает личный бренд. Пользователи получают обычный скам.

Это, конечно, лишь мои догадки, но если смотреть по цифрам:

Репозиторий создан 4 апреля, и уже в первые сутки он набирает больше 1000 звезд.
Дальше проект набирает по 1400–2500+ в день — звёздный график буквально идёт вертикально от момента создания, хотя за день до этого об этом репозитории никто не слышал.
Я не маркетолог, но кажется, что у живого вирусного запуска должен быть какой-то разгон, а не просто выброс в первые сутки.

К примеру библиотека tailwindcss набрала за аналогичный период всего 58 звёзд.

Возможность раскрыть неэффективность решения осложняется еще тем, что не сразу ясно, а как проверить такое решение на эффективность. Те, кто поставил себе этот скилл, просто не видят, что конкретно ухудшилось. А чисто интуитивно может казаться, что токены и правда жгутся меньше. И даже если кто-то заметит, что качество стало хуже, то всё равно спишет на то, что «что-то Opus в последнее время понёрфили». Что, кстати, и правда бывает.

Послесловие

Теперь про то, что работает. По моему опыту, сейчас работает то, что, к примеру, режет вывод инструментов. То есть, — не какая-то магия, а понятное и предсказуемое сокращение количества спецсимволов в читаемых нейронками данных. К примеру, библиотека rtk. Хотя, конечно, график звёзд в readme этой библиотеки заставляет задуматься о том, чтобы на всякий случай провести тесты...

На этом все. Спасибо, что дочитали до конца. Надеюсь, что этим небольшим исследованием у меня получится сэкономить ваше время и токены на использовании этой тулзы.

А еще мне нравится делать подобные исследования вместе с моим другом @sagos95 — так что подписывайтесь на наш телеграм-канальчик, где мы порой публикуем подобные исследования.

Ну и если несложно, то напишите в комментариях, знаете ли вы еще подобные репозитории которые работают или не работают. Мне будет интересно их тоже потестировать.

推荐订阅源

Все публикации подряд на Хабре