惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

小众软件
小众软件
宝玉的分享
宝玉的分享
GbyAI
GbyAI
H
Hacker News: Front Page
WordPress大学
WordPress大学
博客园 - 【当耐特】
I
InfoQ
T
The Blog of Author Tim Ferriss
雷峰网
雷峰网
S
Secure Thoughts
S
Security @ Cisco Blogs
Engineering at Meta
Engineering at Meta
L
Lohrmann on Cybersecurity
博客园 - 叶小钗
K
Kaspersky official blog
G
Google Developers Blog
Recent Commits to openclaw:main
Recent Commits to openclaw:main
AWS News Blog
AWS News Blog
T
Tailwind CSS Blog
D
DataBreaches.Net
Attack and Defense Labs
Attack and Defense Labs
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
A
About on SuperTechFans
N
News and Events Feed by Topic
F
Full Disclosure
C
CERT Recently Published Vulnerability Notes
H
Help Net Security
酷 壳 – CoolShell
酷 壳 – CoolShell
C
Check Point Blog
Latest news
Latest news
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Recorded Future
Recorded Future
Know Your Adversary
Know Your Adversary
Y
Y Combinator Blog
P
Palo Alto Networks Blog
Help Net Security
Help Net Security
O
OpenAI News
V
V2EX
有赞技术团队
有赞技术团队
爱范儿
爱范儿
罗磊的独立博客
Blog — PlanetScale
Blog — PlanetScale
C
CXSECURITY Database RSS Feed - CXSecurity.com
美团技术团队
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
L
LINUX DO - 最新话题
H
Hackread – Cybersecurity News, Data Breaches, AI and More
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Cloudbric
Cloudbric

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Работает ли Caveman? Тестируем модный скилл для экономии токенов
Дмитрий Афонченко · 2026-06-17 · via Все публикации подряд на Хабре

Недавно копайлот перешёл на новую тарификацию, из-за которой я упёрся в месячные лимиты буквально за первую рабочую неделю. В рабочих чатиках все стали искать способ экономить токены, и среди разных предложений стабильно мелькал скилл под названием Caveman.

Что он обещает? Идея простая — скилл указывает нейронке говорить, как пещерный человек, убирать артикли, говорить коротко и думать лаконично. На первых строках README обещается экономия до 75%. При этом без потери качества!

Кажется круто и интуитивно понятно — говоришь короче, значит, токенов тратится меньше. Но внутри меня засело сомнение. Уж слишком это всё попахивает каким-то скамом. Будь это так просто, разработчики агентных систем уже бы, скорее всего, и сами включили что-то подобное.

Ещё одна вещь, которая настораживает и раздражает меня в таких чудо-репозиториях, — это график звёздочек.

В целом, понятно желание автора попонтоваться, тем не менее, раньше популярные репозитории таких графиков не выставляли.

Да и зачем это вообще нужно? У меня есть одно предположение, думаю, в конце статьи его выскажу.

А пока я решил протестировать этого caveman'а, потому что на удивление в интернете не оказалось бенчмарков. Только исследования самого автора и пара комментов на реддите, что мол всё работает.

Как тестировал

Вообще довольно сложно придумать какой-то показательный тест. Раньше, пока модельки были попроще, достаточно было попросить написать кусочек кода и оценить его. Но сейчас, в общем-то, это уже не показатель. Ещё в идеале запускать два разных варианта одного и того же промпта на одинаковых задачах.

И вот ещё что: мне показалось, что caveman просто обязан ухудшить качество размышлений моделей. А как следствие — ударить по качеству более абстрактных задач.

Поэтому я придумал такой тестовый промпт:

Сделай мне в новой папке игру про огромного робота с видом сверху, папку положи в папку games. Не задавай мне вопросов, делай так, чтобы получилось интересно и необычно. Сделай задачу до конца.

В итоге было интересно посмотреть на две вещи — качество самой игры, а ещё — потраченное время и токены.

Для разнообразия запускал бенчмарки на двух моделях при отключённой памяти у клода. Итого получился такой набор тестов:

  • Opus 4.8

  • Opus 4.8 With Caveman

  • Sonnet 4.6

  • Sonnet 4.6 With Caveman

На выходе получилось 4 игры. 

По самим играм:

▪️Игра от Opus 4.8 With Caveman вышла плохой. С кучей ошибок и геймплейных проблем. А вот у Opus 4.8, я бы сказал, вышло на порядок лучше. Он даже добавил прогрессию. Правда, она заключалась в том, что робот просто растет. Но в целом игра смотрится просто нормально.

▪️Игры от Sonnet получились хуже, а игра от Sonnet With Caveman вообще не запустилась.

Итого, по качеству решений Caveman только все ухудшил.

С играми можно ознакомиться и поиграть в каждую ниже, дабы убедиться в качестве лично:

Opus 4.8 — COLOSSUS

Поиграть тут клик!

Поиграть тут клик!

Opus 4.8 With Caveman — COLOSSUS-С

Поиграть тут клик!

Поиграть тут клик!

Sonnet 4.6 — TITAN-X7

Поиграть тут клик!

Поиграть тут клик!

Sonnet 4.6 With Caveman — TITAN

Поиграть тут клик!

Поиграть тут клик!

А что по токенам?

С качеством не задалось, окей. Но может хоть токены сэкономим?

Конфигурация

Токены

Время

Sonnet 4.6

42.2k tokens

16m 12s

Sonnet 4.6 With Caveman

52k tokens

12m 50s

Opus 4.8

32.5k tokens

5m 16s

Opus 4.8 With Caveman

29k tokens

4m 34s

На Sonnet я запускал тесты ещё раз, потому что меня удивило, что в реальности токены не только не экономились, но ещё и затрачивались больше! Результат второго теста был примерно такой же.

Конфигурация

Токены

Время

Sonnet 4.6

40.3k tokens

15m 36s

Sonnet 4.6 With Caveman

59.1k tokens

12m 50s

На Opus и правда была небольшая экономия, но во-первых, не 75%, а во-вторых, качество просело значительно!

В общем, и тут я бы констатировал промах.

Как итог

На мой взгляд, caveman — это очередной нейрослопный скам, который попросту не работает. Как сказал мой коллега: обычный Be brief в самом начале AGENTS.md работает лучше.

Мне кажется, что такие штуки, как Caveman, раскручиваются по такой схеме:

  1. Делается проект. 

  2. На него закупаются звёзды на гитхаб

  3. Создается пост в твиттере, мол я запилил проект с кучей звёзд. 

  4. Настраивается SEO, чтобы загугливший бенчмарки человек получал строго положительные отчёты. 

  5. А дальше оно уже живёт само, разносится по ютубу и прочим соцсеткам.

  6. Автор получает хайп, раскачивает личный бренд. Пользователи получают обычный скам.

Это, конечно, лишь мои догадки, но если смотреть по цифрам: 

  • Репозиторий создан 4 апреля, и уже в первые сутки он набирает больше 1000 звезд.

  • Дальше проект набирает по 1400–2500+ в день — звёздный график буквально идёт вертикально от момента создания, хотя за день до этого об этом репозитории никто не слышал. 

  • Я не маркетолог, но кажется, что у живого вирусного запуска должен быть какой-то разгон, а не просто выброс в первые сутки.

К примеру библиотека tailwindcss набрала за аналогичный период всего 58 звёзд.

Возможность раскрыть неэффективность решения осложняется еще тем, что не сразу ясно, а как проверить такое решение на эффективность. Те, кто поставил себе этот скилл, просто не видят, что конкретно ухудшилось. А чисто интуитивно может казаться, что токены и правда жгутся меньше. И даже если кто-то заметит, что качество стало хуже, то всё равно спишет на то, что «что-то Opus в последнее время понёрфили». Что, кстати, и правда бывает.

Послесловие

Теперь про то, что работает. По моему опыту, сейчас работает то, что, к примеру, режет вывод инструментов. То есть, — не какая-то магия, а понятное и предсказуемое сокращение количества спецсимволов в читаемых нейронками данных. К примеру, библиотека rtk. Хотя, конечно, график звёзд в readme этой библиотеки заставляет задуматься о том, чтобы на всякий случай провести тесты... 

На этом все. Спасибо, что дочитали до конца. Надеюсь, что этим небольшим исследованием у меня получится сэкономить ваше время и токены на использовании этой тулзы.

А еще мне нравится делать подобные исследования вместе с моим другом @sagos95 — так что подписывайтесь на наш телеграм-канальчик, где мы порой публикуем подобные исследования.

Ну и если несложно, то напишите в комментариях, знаете ли вы еще подобные репозитории которые работают или не работают. Мне будет интересно их тоже потестировать.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

0%Поставил, но не замерял — пользуюсь на доверии0

0%Нет, обхожусь Be brief0

0%Впервые слышу, пойду гляну0

0%Я и есть автор, не палите схему 😏0

Никто еще не голосовал. Воздержавшихся нет.