Не используйте LLM для текста

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь

antonkrylov · 2026-05-27 · via Все публикации подряд на Хабре

Как выбирать модель для задачи

Если пользоваться моделью, держите ее в роли клерка, критика или чернового редактора. Не отдавайте ей роль автора. Чем больше финального голоса вы передаете модели, тем сильнее текст перенимает ее привычки: мягкую нейтральность, фальшивые концовки, ровный ритм и общие фразы.

То же относится к выбору модели. Одной модели уже мало.

Поведение модели меняется вместе с продуктом. Модель, которая в марте казалась точной, в мае может стать медленнее, осторожнее или громче. Название в меню остается тем же, но ассистент за ним уже другой.

Эти системы не дают один и тот же результат каждый раз. Они еще и продукты. Каждый релиз приносит новое обучение, новые правила безопасности, новое поведение инструментов и новый вкус компании. Одно обновление может сделать модель сильнее в планировании и слабее в редактировании. Другое может сделать ее аккуратнее с кодом, но многословнее в обычном разговоре.

Вопрос уже не в том, какая модель лучшая. Вопрос такой: какая модель должна делать эту задачу, с этим контекстом, сегодня?

Codex и Claude остаются лучшими моделями из тех, что я использовал для серьезной работы с инструментами. Они понимают ритм программных задач: осмотреть репозиторий, прочитать местные правила, сделать узкое изменение, запустить проверки и исправить курс, если факты показывают, что первая попытка была неверной.

Codex обычно сдержаннее. Он чаще сохраняет форму проекта и сначала делает небольшое полезное изменение. В зрелой кодовой базе это важно: самая трудная часть часто не в том, чтобы написать код, а в том, чтобы не написать лишний код.

Claude тоже отлично работает с инструментами, но слишком быстро берется писать код. Исправление на три строки может стать хелпером, потом новым модулем, потом переписанным тестом. Иногда такая энергия полезна. Часто это просто новая площадь для обслуживания.

Gemini устроен иначе. Я не всегда хочу запускать его первым внутри грязного репозитория, но часто хочу услышать его до начала работы. Он лучше помогает понять, что это за проблема: баг, не принятое продуктовое решение, плохая абстракция или тест, который проверяет не то.

Kimi меня удивил. Он менее отполирован, чем Codex, и не так чист на финише, но в широком рассуждении не сильно отстает от Gemini. Поэтому он ценен как второе мнение, особенно когда первый ответ звучит слишком гладко.

Мое текущее правило простое. Codex получает работу с репозиторием, ремонт тестов, узкие патчи и задачи, где важны местные инструкции. Claude получает быструю реализацию, когда рамки уже жестко заданы. Gemini получает архитектуру, продуктовое направление и разбор компромиссов до начала правки кода. Kimi получает вторые мнения и черновую стратегию. Локальные модели с открытыми весами получают личные заметки, дешевые черновики, простую классификацию и задачи, где цена важнее блеска.

Эти различия полезны, если назначать задачу с учетом типичного сбоя. Claude может построить лишнее. Gemini может остаться слишком далеко от файлов. Локальная модель может годиться для саммари, но быть слабой в ревью кода. Codex может быть правильным выбором, когда патч должен лечь в репозиторий и не превратиться в редизайн.

Практический прием простой: отделить планирование от исполнения. Попросите Gemini или Kimi определить проблему и риски. Потом попросите Codex или Claude внести изменение. После патча дайте результат на ревью другой модели. Ревьюер не должен переписывать работу. Он должен искать баги, пропущенные тесты, слишком широкие изменения и места, где реализация не совпадает с исходной целью.

Промпт для ревью должен быть прямым. Не спрашивайте: «Это хорошо?» Спросите, какой файл изменился сильнее, чем нужно. Спросите, какое допущение не доказано. Спросите, какой тест должен упасть, если патч неверен. Спросите, что мейнтейнер возразил бы на ревью.

Я бы вел простую таблицу с пятью полями: модель, задача, цена, результат и потребовался ли второй проход. После десяти задач рисунок обычно виден. Возможно, Claude двигался быстрее всех, но дважды построил лишнее. Возможно, Codex исправлял тесты меньшим числом правок.

Сервис выбора модели не обязан быть сложным. Небольшой внутренний сервис, скрипт или общий конфиг могут сделать решение явным: саммари идут в дешевую модель, правки репозитория идут в модель для кода, архитектурные вопросы идут в модель для планирования, а чувствительные заметки остаются локально.

Проблема цены реальна. Работа с несколькими моделями быстро дорожает. Платные аккаунты, кредиты API, лимиты запросов и корпоративные планы превращают лучший процесс в то, что многие люди не могут себе позволить. Поэтому китайские провайдеры и модели с открытыми весами важны. Они давят на цены и делают локальные процессы реальнее.

С локальными моделями размещенной модели больше не нужно трогать все.

Командная политика

Для команд следующий шаг это политика. Какие задачи можно отдавать локальным моделям? Какие промпты могут содержать данные клиентов? Какая модель имеет право редактировать продакшен код? Какая модель имеет право только проверять? Какая модель вызывается, когда первый ответ ненадежен?

Каждый ответ меняет счет, риск для приватности или нагрузку на ревью.

Та же проблема яснее видна в письме. Код можно запустить. Тесты могут упасть. Тайпчекер может сказать, что утверждение о функции неверно. У прозы другие отказы. Абзац может быть грамматически чистым и при этом мертвым. Предложение может быть гладким и при этом не нести наблюдения.

Используйте ИИ, чтобы разобрать заметки, оспорить план, найти слабые утверждения или перечислить вопросы, на которые черновик не ответил. Держите его в роли клерка. Держите его в роли критика. Не используйте его как человека, чье имя стоит под статьей.

Если приходится использовать ИИ для письма, относитесь к модели как к младшему редактору с плохим вкусом и хорошей выносливостью. Она может помочь, но ей нужны правила, запрещенные приемы и примеры того, чего делать нельзя.

Именно этим во время этого черновика стал локальный файл AGENTS.md.

Avoid formulaic AI sounding contrast pairs or rhetorical reversals.

Prefer direct, plain statements grounded in specifics instead of slogan
like pivots or dramatic emphasis patterns.

Use a direct, simple style. Prefer short sentences, common words, and clear
statements over layered phrasing.

Never use hyphens in drafted prose. Rewrite the sentence if a hyphen would
otherwise be needed.

Wrap article prose to fit on screen in plain text views. Keep lines at
about 72 characters where practical.

Avoid tidy three beat lists made from repeated sentence openings, such as
"It will X. It will Y. It will Z."

Do not use rhythmic escalation when a direct statement is enough.

Avoid prophecy voice. Do not describe the future as if announcing a
manifesto. Anchor future claims in a concrete workflow, tool, cost, or user
behavior.

Replace abstract verbs with the actual action when possible: send bug fixes
to Codex, ask Gemini for the plan, use a local model for drafts.

If a sentence sounds good because of cadence alone, rewrite it until it
earns its place through information.

Avoid aphorism closers that sound like a punchline but add no detail.

Treat vague setup plus tidy verdict as a fake punchline. If a line has no
new information and mainly sounds good, cut it or replace it with a
concrete observation.

Такой файл полезнее, чем просьба «писать моим голосом». У большинства людей нет одного устойчивого голоса. У них есть привычки, темы, суждения, влияния и неприязни. Файл правил ловит неприязни. Он говорит модели, что не должно пережить редактуру.

Правило про дефисы хороший пример. ИИ проза часто опирается на компактные составные ярлыки. Они делают предложение собранным, но часто прячут мутную мысль. Если фразе нужен дефис, чтобы звучать серьезно, есть высокая вероятность, что предложение надо переписать.

Список из трех ударов это еще один сигнал тревоги. «Он направляет. Он помнит. Он улучшает». Такой стиль кажется завершенным, потому что ритм завершен. Читатель все еще не понимает, что произошло. Лучше назвать инструмент, человека, цену, файл или решение.

Правила не делают модель писателем. Они только уменьшают ее способность портить черновик до того, как к нему прикоснется человек редактор.

Для письма я бы использовал модель в основном для отбраковки слабого материала. Откажитесь от первого гладкого черновика. Откажитесь от аккуратной концовки. Откажитесь от предложения, которое подошло бы к любой статье на эту тему. Оставьте деталь, которая могла появиться только в этом тексте: Claude превращает исправление на три строки в новый модуль, Gemini находит первый шаг до правки файлов, таблица показывает, что локальная модель достаточно дешева для черновиков и слаба в финальном суждении.

После достаточного числа реальных задач заметки начинают решать за вас: ремонт тестов отправить Codex, план попросить у Gemini, Claude держать на коротком тикете, локальной модели отдать дешевый первый проход и никогда не позволять ни одной модели писать последнюю строку до того, как вы сами на нее посмотрели.

оригинал

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

Все публикации подряд на Хабре

Как выбирать модель для задачи

Командная политика