惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

F
Full Disclosure
Recorded Future
Recorded Future
T
Tenable Blog
S
Securelist
C
CERT Recently Published Vulnerability Notes
T
Threatpost
S
Schneier on Security
A
Arctic Wolf
The Hacker News
The Hacker News
C
CXSECURITY Database RSS Feed - CXSecurity.com
Know Your Adversary
Know Your Adversary
P
Privacy International News Feed
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
The Register - Security
The Register - Security
Cisco Talos Blog
Cisco Talos Blog
AWS News Blog
AWS News Blog
K
Kaspersky official blog
T
True Tiger Recordings
T
Threat Research - Cisco Blogs
V
Vulnerabilities – Threatpost
P
Palo Alto Networks Blog
T
The Exploit Database - CXSecurity.com
小众软件
小众软件
B
Blog
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Microsoft Azure Blog
Microsoft Azure Blog
Cyberwarzone
Cyberwarzone
C
Cybersecurity and Infrastructure Security Agency CISA
T
Tor Project blog
Spread Privacy
Spread Privacy
Malwarebytes
Malwarebytes
P
Proofpoint News Feed
F
Fox-IT International blog
F
Fortinet All Blogs
P
Privacy & Cybersecurity Law Blog
G
GRAHAM CLULEY
量子位
Latest news
Latest news
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - 叶小钗
Project Zero
Project Zero
T
Tailwind CSS Blog
N
Netflix TechBlog - Medium
Martin Fowler
Martin Fowler
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
I
Intezer
博客园_首页
腾讯CDC
H
Hackread – Cybersecurity News, Data Breaches, AI and More
D
Darknet – Hacking Tools, Hacker News & Cyber Security

Все публикации подряд на Хабре

Ищу ранних тестировщиков для Android-версии agent harnesses Увеличиваем продажи без слез аналитика Оптимизация запросов к PostgreSQL: 5 неочевидных настроек для продакшена 45 лет тюрьмы за DROP TABLE и переход Карпатого в Anthropic Планирование движения для ровера на ходовой Ackerman'а Революция в изучении языков Java — быстрая. Ваш код может таким не быть Как я опоздал на конкурс OpenAi с новой архитектурой нейросети Быстрые интеграции в 1С: прощайте, бесконечные переделки Как получить субсидию 300 миллионов от Минпромторга? preIPO Anthropic, OpenAI, SpaceX. Разбираемся — стоит ли участвовать? Entaxy ION + OPC UA: два способа получить данные с промышленного оборудования Память на миллион, а толку ноль: как мы спасали ИИ-агента от «тупости» РСЯ, AdSense или myTarget: что на самом деле в 2026 приносит больше денег сайту и причем тут монетизаторы Практическое построение сервисов на Go под реальный трафик PostgreSQL и аналитика: что меняется, когда хранилище становится общим Codex за 5 месяцев 2026: мой топ-5 релизов, что не зашло и где OpenAI обогнал Anthropic Как создать короткое видео с помощью нейросетей: Полный гайд по Veo 3.1, Kling 3.0 и Happy Horse 1.0 Алгоритм проверок физлиц от экс сотрудника ФНС Как ИИ портит резюме студентам Системные вызовы в сфере ИТ в 2026: стратегический взгляд для ИТ-руководителей Вайбкодинг заканчивается на localhost: как я строю SaaS для цифровизации коттеджных поселков с Codex Производственные риски в небольшом кастомном производстве. С чем я сталкивалась и как научилась это учитывать Подключаем ИИ органы чувств: bash-демон, пайка и самосознание на Raspberry Pi Я хотел повторить Growing Neural CA за вечер. Ушёл месяц Промт для генерации текста без ИИ следа — как писать уникальные тексты через нейросеть От capabilities к AppArmor: что реально остановит атакующего в контейнере CactOS Вектора интересов: как находить настоящую мотивацию и усиливать команды Цена безопасности [Перевод] Цена безопасности “Рубик” от пет-проекта до прода или ITIL 4 для строительно-торговых центров Чего ждать (и не ждать) от ремейка AC4 Black Flag Архитектурный тупик корпоративного хранения: почему смена модели не снимает ограничений и что с этим делать Атаки через подрядчиков, дефицит кадров и квест с импортозамещением: главные вызовы ИБ в 2026 году Я не оставлю детям наследства Почему порты стали «дверями» в сервер, и кто решил, что SSH будет 22 Почему зарубежные разработчики чипов возвращаются на китайские фабрики Как у меня НЕ получился торговый бот на Polymarket Проектирование архитектуры в нотации ArchiMate с использованием ИИ. Часть 2 Как превратить домашнюю файлопомойку в умную AI-галерею на основе сборки из x99+Xeon и видеокарты за 2 тыс рублей Перспективы заселения нашей галактики Кризис менеджмент в ИТ Reactive Programming не спасёт вас. Если вы не решили эти 5 проблем — у вас просто медленный монолит с Flux Как я делаю DIY-контроллер для ПК: громкость, приложения, MIDI, OBS Миграция микросервисов на Python с помощью LLM: экономим месяцы для разработчиков Программирование микросхем GAL и им подобных Почему таск-трекер не заменяет ИСУП: из чего состоит полноценный контур управления проектами Всё об информационной безопасности. Кибербезопасность. DevOps, CI/CD. Хакеры. Алексей Федулаев Как импортировать базу клиентов в amoCRM и навести порядок в контактах Как мы четыре раза переписали Outbox Google предлагает единый «водяной знак» для изображений, видео и текста, созданных ИИ Сексизм в IT: данные вместо домыслов Один фронтенд, чтоб править всеми, один фронтенд, чтоб всех найти: 1 точка входа, разные BI ИИ в тестировании: зачем мы пошли в пилот и почему начали с чата, а не с агентов Как я научила Telegram-бота наводить порядок в чате с мемами: пересылка по хештегам в соответствующую тему Как мы сделали внутреннюю CRM для управления студией – опыт Doubletapp Десятипальцевый метод — как печатать цифру " Шесть "? Партнерская программа по нейросетям: зарабатывай на ИИ, приводя клиентов в AI-сервис Как я сделал «клик по элементу → открыть в VS Code» за один вечер Эволюция Telegram‑бота на C++: от «лапши» в main() до ООП, in‑memory кэша и мутов по Фибоначчи Как я (внезапно) стал адвокатом вайб‑кодинга в корпорации Дизайн за 5 минут. Дайджест мая 2026 Только 17% всех 64-битных целых чисел можно разложить на два 32-битных 0,000000001% × ∞ = 100%. Вы осознаёте что любое событие неизбежно? «Вы либо трусы наденьте, либо крестик снимите». Как мы выиграли еще один суд против PR-агентства PRslon Почему вы тратите время не на переговоры, а на чужую внутреннюю драму. Как проходят переговоры с крупными компаниями Как приоритизировать регрессионные проверки, когда сжаты сроки релиза Электронные транспортные накладные: технический разбор нововведений 2026 года для логистов, разработчиков и бизнеса Как определить LLM под капотом чат-бота: учебный эксперимент по black-box fingerprinting Хабру 20 лет — зовём вас отметить это к нам Домой iPad как инструмент разработчика в эпоху агентного программирования Inspector v3: как я сделал свой центр управления Kubernetes на старом ноутбуке Как мы осваивали производство гибко-жёстких печатных плат: от проб и ошибок к рабочей технологии 30 лет мы внедряли в России Ansys. А потом он ушёл — и пришлось садиться писать собственный CAE для аддитивной печати Цифровой рубль и цифровой чек Облако под защитой от DDoS: чем On-Demand отличается от Always-On Распродажа в издательстве «Питер» Почему современный стадион больше похож на ЦОД, чем на арену Машина, которая учится думать Запихнули игровую приставку в короб и в первый же месяц продали на 3 млн Игровой ноутбук vs игровой ПК за те же деньги: что изменилось в 2026 году ГИС для Minecraft. Часть 1 Смена старого оборудования на новое убирает огромные затраты на его эксплуатацию — но куда девать всё это старое? Project Manager 2026: как AI-инструменты меняют профессию SLA как инструмент, а не отчёт. Часть 1. Как подружить бизнес и инженеров через общие цифры Послания от ангелов и первый шаг к компьютерам: стеганография Средневековья и Ренессанса Что новенького есть в CSS в 2026 году? Хватит мучить ChatGPT. Почему ваш промпт не сработает Как и зачем мы писали семантический слой для ИИ аналитики – SLayer Маленькая EVPN/VXLAN-фабрика без тупика: как мы запускали площадку в Амстердаме Репликация по DDIA: что я понял, только когда сам сломал прод RAG без downtime: настраиваем инкрементальное обновление документов на Qdrant и LangChain Тени истории: война машин. Как «Энигма» и «Фиалка» определили исход Второй мировой войны Как ускорить распознавание объектов нейросетями среди множества классов, не жертвуя памятью и точностью Как я хотел две странички для SAMBA и NFS, а сделал полноценную панель управления NAS на 20+ страницах Kubernetes для баз данных? CloudNativePG делает PostgreSQL по-настоящему Cloud-Native Как мы анализировали поведение пользователей Яндекс Музыки на 50 млн событий Как я разработал PoC-конструктор для приложений Android Стек российского сисадмина в 2026
Не используйте LLM для текста
antonkrylov · 2026-05-27 · via Все публикации подряд на Хабре

Как выбирать модель для задачи

Если пользоваться моделью, держите ее в роли клерка, критика или чернового редактора. Не отдавайте ей роль автора. Чем больше финального голоса вы передаете модели, тем сильнее текст перенимает ее привычки: мягкую нейтральность, фальшивые концовки, ровный ритм и общие фразы.

То же относится к выбору модели. Одной модели уже мало.

Поведение модели меняется вместе с продуктом. Модель, которая в марте казалась точной, в мае может стать медленнее, осторожнее или громче. Название в меню остается тем же, но ассистент за ним уже другой.

Эти системы не дают один и тот же результат каждый раз. Они еще и продукты. Каждый релиз приносит новое обучение, новые правила безопасности, новое поведение инструментов и новый вкус компании. Одно обновление может сделать модель сильнее в планировании и слабее в редактировании. Другое может сделать ее аккуратнее с кодом, но многословнее в обычном разговоре.

Вопрос уже не в том, какая модель лучшая. Вопрос такой: какая модель должна делать эту задачу, с этим контекстом, сегодня?

Codex и Claude остаются лучшими моделями из тех, что я использовал для серьезной работы с инструментами. Они понимают ритм программных задач: осмотреть репозиторий, прочитать местные правила, сделать узкое изменение, запустить проверки и исправить курс, если факты показывают, что первая попытка была неверной.

Codex обычно сдержаннее. Он чаще сохраняет форму проекта и сначала делает небольшое полезное изменение. В зрелой кодовой базе это важно: самая трудная часть часто не в том, чтобы написать код, а в том, чтобы не написать лишний код.

Claude тоже отлично работает с инструментами, но слишком быстро берется писать код. Исправление на три строки может стать хелпером, потом новым модулем, потом переписанным тестом. Иногда такая энергия полезна. Часто это просто новая площадь для обслуживания.

Gemini устроен иначе. Я не всегда хочу запускать его первым внутри грязного репозитория, но часто хочу услышать его до начала работы. Он лучше помогает понять, что это за проблема: баг, не принятое продуктовое решение, плохая абстракция или тест, который проверяет не то.

Kimi меня удивил. Он менее отполирован, чем Codex, и не так чист на финише, но в широком рассуждении не сильно отстает от Gemini. Поэтому он ценен как второе мнение, особенно когда первый ответ звучит слишком гладко.

Мое текущее правило простое. Codex получает работу с репозиторием, ремонт тестов, узкие патчи и задачи, где важны местные инструкции. Claude получает быструю реализацию, когда рамки уже жестко заданы. Gemini получает архитектуру, продуктовое направление и разбор компромиссов до начала правки кода. Kimi получает вторые мнения и черновую стратегию. Локальные модели с открытыми весами получают личные заметки, дешевые черновики, простую классификацию и задачи, где цена важнее блеска.

Эти различия полезны, если назначать задачу с учетом типичного сбоя. Claude может построить лишнее. Gemini может остаться слишком далеко от файлов. Локальная модель может годиться для саммари, но быть слабой в ревью кода. Codex может быть правильным выбором, когда патч должен лечь в репозиторий и не превратиться в редизайн.

Практический прием простой: отделить планирование от исполнения. Попросите Gemini или Kimi определить проблему и риски. Потом попросите Codex или Claude внести изменение. После патча дайте результат на ревью другой модели. Ревьюер не должен переписывать работу. Он должен искать баги, пропущенные тесты, слишком широкие изменения и места, где реализация не совпадает с исходной целью.

Промпт для ревью должен быть прямым. Не спрашивайте: «Это хорошо?» Спросите, какой файл изменился сильнее, чем нужно. Спросите, какое допущение не доказано. Спросите, какой тест должен упасть, если патч неверен. Спросите, что мейнтейнер возразил бы на ревью.

Я бы вел простую таблицу с пятью полями: модель, задача, цена, результат и потребовался ли второй проход. После десяти задач рисунок обычно виден. Возможно, Claude двигался быстрее всех, но дважды построил лишнее. Возможно, Codex исправлял тесты меньшим числом правок.

Сервис выбора модели не обязан быть сложным. Небольшой внутренний сервис, скрипт или общий конфиг могут сделать решение явным: саммари идут в дешевую модель, правки репозитория идут в модель для кода, архитектурные вопросы идут в модель для планирования, а чувствительные заметки остаются локально.

Проблема цены реальна. Работа с несколькими моделями быстро дорожает. Платные аккаунты, кредиты API, лимиты запросов и корпоративные планы превращают лучший процесс в то, что многие люди не могут себе позволить. Поэтому китайские провайдеры и модели с открытыми весами важны. Они давят на цены и делают локальные процессы реальнее.

С локальными моделями размещенной модели больше не нужно трогать все.

Командная политика

Для команд следующий шаг это политика. Какие задачи можно отдавать локальным моделям? Какие промпты могут содержать данные клиентов? Какая модель имеет право редактировать продакшен код? Какая модель имеет право только проверять? Какая модель вызывается, когда первый ответ ненадежен?

Каждый ответ меняет счет, риск для приватности или нагрузку на ревью.

Та же проблема яснее видна в письме. Код можно запустить. Тесты могут упасть. Тайпчекер может сказать, что утверждение о функции неверно. У прозы другие отказы. Абзац может быть грамматически чистым и при этом мертвым. Предложение может быть гладким и при этом не нести наблюдения.

Используйте ИИ, чтобы разобрать заметки, оспорить план, найти слабые утверждения или перечислить вопросы, на которые черновик не ответил. Держите его в роли клерка. Держите его в роли критика. Не используйте его как человека, чье имя стоит под статьей.

Если приходится использовать ИИ для письма, относитесь к модели как к младшему редактору с плохим вкусом и хорошей выносливостью. Она может помочь, но ей нужны правила, запрещенные приемы и примеры того, чего делать нельзя.

Именно этим во время этого черновика стал локальный файл AGENTS.md.

Avoid formulaic AI sounding contrast pairs or rhetorical reversals.

Prefer direct, plain statements grounded in specifics instead of slogan
like pivots or dramatic emphasis patterns.

Use a direct, simple style. Prefer short sentences, common words, and clear
statements over layered phrasing.

Never use hyphens in drafted prose. Rewrite the sentence if a hyphen would
otherwise be needed.

Wrap article prose to fit on screen in plain text views. Keep lines at
about 72 characters where practical.

Avoid tidy three beat lists made from repeated sentence openings, such as
"It will X. It will Y. It will Z."

Do not use rhythmic escalation when a direct statement is enough.

Avoid prophecy voice. Do not describe the future as if announcing a
manifesto. Anchor future claims in a concrete workflow, tool, cost, or user
behavior.

Replace abstract verbs with the actual action when possible: send bug fixes
to Codex, ask Gemini for the plan, use a local model for drafts.

If a sentence sounds good because of cadence alone, rewrite it until it
earns its place through information.

Avoid aphorism closers that sound like a punchline but add no detail.

Treat vague setup plus tidy verdict as a fake punchline. If a line has no
new information and mainly sounds good, cut it or replace it with a
concrete observation.

Такой файл полезнее, чем просьба «писать моим голосом». У большинства людей нет одного устойчивого голоса. У них есть привычки, темы, суждения, влияния и неприязни. Файл правил ловит неприязни. Он говорит модели, что не должно пережить редактуру.

Правило про дефисы хороший пример. ИИ проза часто опирается на компактные составные ярлыки. Они делают предложение собранным, но часто прячут мутную мысль. Если фразе нужен дефис, чтобы звучать серьезно, есть высокая вероятность, что предложение надо переписать.

Список из трех ударов это еще один сигнал тревоги. «Он направляет. Он помнит. Он улучшает». Такой стиль кажется завершенным, потому что ритм завершен. Читатель все еще не понимает, что произошло. Лучше назвать инструмент, человека, цену, файл или решение.

Правила не делают модель писателем. Они только уменьшают ее способность портить черновик до того, как к нему прикоснется человек редактор.

Для письма я бы использовал модель в основном для отбраковки слабого материала. Откажитесь от первого гладкого черновика. Откажитесь от аккуратной концовки. Откажитесь от предложения, которое подошло бы к любой статье на эту тему. Оставьте деталь, которая могла появиться только в этом тексте: Claude превращает исправление на три строки в новый модуль, Gemini находит первый шаг до правки файлов, таблица показывает, что локальная модель достаточно дешева для черновиков и слаба в финальном суждении.

После достаточного числа реальных задач заметки начинают решать за вас: ремонт тестов отправить Codex, план попросить у Gemini, Claude держать на коротком тикете, локальной модели отдать дешевый первый проход и никогда не позволять ни одной модели писать последнюю строку до того, как вы сами на нее посмотрели.