惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

F
Full Disclosure
Recorded Future
Recorded Future
T
Tenable Blog
S
Securelist
C
CERT Recently Published Vulnerability Notes
T
Threatpost
S
Schneier on Security
A
Arctic Wolf
The Hacker News
The Hacker News
C
CXSECURITY Database RSS Feed - CXSecurity.com
Know Your Adversary
Know Your Adversary
P
Privacy International News Feed
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
The Register - Security
The Register - Security
Cisco Talos Blog
Cisco Talos Blog
AWS News Blog
AWS News Blog
K
Kaspersky official blog
T
True Tiger Recordings
T
Threat Research - Cisco Blogs
V
Vulnerabilities – Threatpost
P
Palo Alto Networks Blog
T
The Exploit Database - CXSecurity.com
小众软件
小众软件
B
Blog
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Microsoft Azure Blog
Microsoft Azure Blog
Cyberwarzone
Cyberwarzone
C
Cybersecurity and Infrastructure Security Agency CISA
T
Tor Project blog
Spread Privacy
Spread Privacy
Malwarebytes
Malwarebytes
P
Proofpoint News Feed
F
Fox-IT International blog
F
Fortinet All Blogs
P
Privacy & Cybersecurity Law Blog
G
GRAHAM CLULEY
量子位
Latest news
Latest news
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - 叶小钗
Project Zero
Project Zero
T
Tailwind CSS Blog
N
Netflix TechBlog - Medium
Martin Fowler
Martin Fowler
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
I
Intezer
博客园_首页
腾讯CDC
H
Hackread – Cybersecurity News, Data Breaches, AI and More
D
Darknet – Hacking Tools, Hacker News & Cyber Security

Все публикации подряд на Хабре

Я держал кафе 16 лет и кормил полгорода. Потом пришли зумеры и всё посыпалось Есть ли жизнь на фазе: откуда берёт энергию умный выключатель без подключённой нейтрали Go Computer. История удивительного планшета из 1992 года с графическим интерфейсом Что скрывается за AI-стратегией SAP, Oracle и Palantir: зачем корпоративному ИИ семантическое ядро Почему RAG — фундамент любой AI-трансформации Персонализация как баг Одна на 9 команд: как я внедряла квартальное планирование в трайбе, который сопротивлялся переменам После ИИ писать код руками ощущается уже не как норма Языковые модели без машинного обучения Обмен через интернет между мобильными приложениями ТСД и 1С От плановых ремонтов к предиктивному обслуживанию: дорожная карта для главного инженера Параллельный импорт техники закрыли или нет? Юридический разбор Резервное электрообеспечение для ЦОДов: патенты в мире и в России 256 зелёных тестов на нерабочем коде. Так выглядит «услужливый клерк» внутри нейросети Бизнес-аналитика для сети из 300 аптек: прогноз продаж и другие показатели Impact Analysis в дизайн-системе: как мы сделали CI осмысленнее, а review понятнее Топ-5 лучших нейросетей 2026 года: полный список на любой случай в SpeShu.AI Что делает сотрудников по-настоящему эффективными: процессы, знания или технологии Как за один вечер я написал сервис инвентаризации оргтехники для филиальной сети из 16 локаций Склад нанимает — и не может остановиться. Дефицит складских работников в 2026 году: причины и решения Шёл за утечкой памяти, нашёл утечку диска: SXSSFWorkbook без dispose() в Apache POI Штраф в размере 155 000 рублей получил владелец сайта по заявлению Роскомнадзора Индивидуальный план развития: от формальной процедуры к инструменту управления экспертизой команды Как понять, что вы не управляете финансами, а просто смотрите на цифры Водоросли и микропластик Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Траснформеры Бомба замедленного действия взорвалась: эпоха ИИ «бери сколько унесёшь» закончилась Стимпанк как часть жизни. История паровых двигателей и место, которое они занимали в мире в XIX-XX веках. Часть 2 288-ядерный Xeon 6+ и другие серверные CPU От OCR к смыслу: как мы научили модель понимать, кто кому отец, мать, жених и свидетель Насколько плох был Intel iAPX 432 — проверяем на практике Приручаем железо: внедряем DevOps в промышленной разработке Когда Reality не хватает: добавляем Hysteria2 + Salamander в iOS-мессенджер, и как всегда грабли по дороге (ч.2) Разработчики не экстрасенсы: как мы перестали приносить туман вместо ТЗ Дайджест C++: новости, полезные материалы и “свой язык” на десерт Ещё один репозиторий моделей для Archi 10 простых шагов, чтобы создать позиционирование для продукта Загадочная поэма древнего Китая, работающая как компьютер CLOUD Act, GDPR и ваш DNS: что на самом деле может ваш провайдер Ускоряем и оптимизируем numpy, pandas, scipy и sklearn Idempotency keys: 5 граблей, которые мы поймали на проде Gamedev. Парсинг данных из Google Sheets и Excel в json без привлечения программистов Nano Banana Google AI: как использовать Нано Банана для генерации и редактирования изображений Два игрока на весь российский рынок ИИ: что показал ЦИПР-2026 Менеджер ресурсов ЯНДЕКС 360 (YANDEX 360) промокоды июнь 2026: промокод Yandex 360 скидка 40% на годовые тарифы Open-Source инструмент для автоматического перевода книг Ищу ранних тестировщиков для Android-версии agent harnesses Не используйте LLM для текста Увеличиваем продажи без слез аналитика Оптимизация запросов к PostgreSQL: 5 неочевидных настроек для продакшена 45 лет тюрьмы за DROP TABLE и переход Карпатого в Anthropic Планирование движения для ровера на ходовой Ackerman'а Революция в изучении языков Java — быстрая. Ваш код может таким не быть Как я опоздал на конкурс OpenAi с новой архитектурой нейросети Быстрые интеграции в 1С: прощайте, бесконечные переделки Как получить субсидию 300 миллионов от Минпромторга? preIPO Anthropic, OpenAI, SpaceX. Разбираемся — стоит ли участвовать? Entaxy ION + OPC UA: два способа получить данные с промышленного оборудования Память на миллион, а толку ноль: как мы спасали ИИ-агента от «тупости» РСЯ, AdSense или myTarget: что на самом деле в 2026 приносит больше денег сайту и причем тут монетизаторы Практическое построение сервисов на Go под реальный трафик PostgreSQL и аналитика: что меняется, когда хранилище становится общим Codex за 5 месяцев 2026: мой топ-5 релизов, что не зашло и где OpenAI обогнал Anthropic Как создать короткое видео с помощью нейросетей: Полный гайд по Veo 3.1, Kling 3.0 и Happy Horse 1.0 Алгоритм проверок физлиц от экс сотрудника ФНС Как ИИ портит резюме студентам Системные вызовы в сфере ИТ в 2026: стратегический взгляд для ИТ-руководителей Вайбкодинг заканчивается на localhost: как я строю SaaS для цифровизации коттеджных поселков с Codex Производственные риски в небольшом кастомном производстве. С чем я сталкивалась и как научилась это учитывать Подключаем ИИ органы чувств: bash-демон, пайка и самосознание на Raspberry Pi Я хотел повторить Growing Neural CA за вечер. Ушёл месяц Промт для генерации текста без ИИ следа — как писать уникальные тексты через нейросеть От capabilities к AppArmor: что реально остановит атакующего в контейнере CactOS Вектора интересов: как находить настоящую мотивацию и усиливать команды Цена безопасности [Перевод] Цена безопасности “Рубик” от пет-проекта до прода или ITIL 4 для строительно-торговых центров Чего ждать (и не ждать) от ремейка AC4 Black Flag Архитектурный тупик корпоративного хранения: почему смена модели не снимает ограничений и что с этим делать Атаки через подрядчиков, дефицит кадров и квест с импортозамещением: главные вызовы ИБ в 2026 году Я не оставлю детям наследства Почему порты стали «дверями» в сервер, и кто решил, что SSH будет 22 Почему зарубежные разработчики чипов возвращаются на китайские фабрики Как у меня НЕ получился торговый бот на Polymarket Проектирование архитектуры в нотации ArchiMate с использованием ИИ. Часть 2 Как превратить домашнюю файлопомойку в умную AI-галерею на основе сборки из x99+Xeon и видеокарты за 2 тыс рублей Перспективы заселения нашей галактики Кризис менеджмент в ИТ Reactive Programming не спасёт вас. Если вы не решили эти 5 проблем — у вас просто медленный монолит с Flux Как я делаю DIY-контроллер для ПК: громкость, приложения, MIDI, OBS Миграция микросервисов на Python с помощью LLM: экономим месяцы для разработчиков Программирование микросхем GAL и им подобных Почему таск-трекер не заменяет ИСУП: из чего состоит полноценный контур управления проектами Всё об информационной безопасности. Кибербезопасность. DevOps, CI/CD. Хакеры. Алексей Федулаев Как импортировать базу клиентов в amoCRM и навести порядок в контактах Как мы четыре раза переписали Outbox Google предлагает единый «водяной знак» для изображений, видео и текста, созданных ИИ
Экономия GPU-часов в 2,5 раза, уход ИИ в бэкенд и новые стандарты агентских систем: ML-дайджест
techno_mot ( · 2026-05-27 · via Все публикации подряд на Хабре

Пока инфо-бизнесмены продают очередные курсы по промпт-инжинирингу, в индустрии пересобирают саму архитектуру ИИ-систем. Главные вызовы сегодня лежат в плоскости ML-инфраструктуры: как запустить автономных агентов на проде, снизить latency и не обанкротиться на обучении моделей с нуля. 

В майском выпуске разбираем свежие архитектурные подходы, новое железо и софт, которые меняют экономику современных нейросетей.

Как один разработчик запускает 100 агентов на Codex

В начале мая 2026 года в инженерном сообществе обсуждали не столько сам OpenClaw, сколько ощутимый эффект от его внутренней работы: один из авторов проекта, Питер Штайнбергер, опубликовал скриншот OpenAI‑дешборда, где за 30 дней накопился счет на 1 305 088,81 доллара. Это не демонстрация, а фактический лог агентов в продакшен‑среде, которые в фоне дергают Codex по нескольку миллионов запросов.

r/theprimeagen - Основатель OpenClaw Питер Штайнбергер потратил 1,3 миллиона долларов на токены API за 30 дней.

Источник.

За месяц сервис обработал около 603 млрд токенов в рамках 7,6 млн запросов. При этом за всю инфраструктуру отвечают примерно 100 экземпляров Codex, которыми управляет команда из трех человек. 

ИИ-агенты полностью закрывают рутину:

  • проверяют pull request'ы и ищут уязвимости в коммитах;

  • очищают баг-трекер от дубликатов;

  • пишут исправления и сами открывают новые PR, опираясь на roadmap OpenClaw.

Отдельные системы непрерывно отслеживают бенчмарки и фиксируют регрессии, сразу отправляя алерты в Discord. Расходы оплачивает уже не сам Штайнбергер, а OpenAI, куда он перешел в февраля 2026. 

Важная деталь: в этот бюджет сильно вписывается режим «Fast Mode» Codex, который расходует токены гораздо быстрее обычного режима. По словам Штайнбергера, при отключении Fast Mode месячный объем расходов сокращается примерно до 300 000 долларов. Даже в таком виде это значительно больше, чем типичные корпоративные подписки на аналогичные ассистенты.

Этот кейс естественно подводит к теме, которая сейчас активно поднимается в обсуждении агентных систем: когда говорят о сотнях агентов, экономика переходит на первое место — каждая лишняя токенизация, режим «быстрее/медленнее» и стиль автоматизации начинают напрямую затрагивать счет, а не только точность модели.

Облачная инфраструктура для ваших проектов

Виртуальные машины в Москве, Санкт-Петербурге и Новосибирске с оплатой по потреблению.

Подробнее →

Cerebras запустил Kimi K2.6 и обогнал все GPU мира

Если в прошлом месяце нас впечатлил пример, как Kimi 2.6 сама переписала рантайм на Zig и обогнала LM Studio, то сейчас Cerebras продемонстрировала, как эта же архитектура смотрится в корпоративном масштабе. Калифорнийская компания официально включила в продакшен свои возможности по инференсу для модели Kimi K2.6 с объемом около 1 трлн параметров, зафиксировав при этом серьезный разрыв в скорости по сравнению с традиционными GPU‑облаками. 

Источник.

Источник.

Независимый анализ Artificial Analysis показал около 981 токена в секунду на выходе, что приближается к 6,7‑кратному превосходству над лучшим на тот момент облачным GPU‑провайдером и примерно в 23 раза быстрее среднерыночного уровня. В конкретном сценарии: типичный запрос разработчика с 10 000 входными токенами и 500 токенами ответа Cerebras обрабатывает за 5,6 секунды, в то время как официальный облачный сервис Kimi тратит на аналогичный запрос 163,7 секунды — разница почти в 30 раз.

За этим показателем стоит переход на архитектуру Wafer‑Scale Engine 3 (не просто апгрейд чипа), где процессор собирается на одной кремниевой пластине, вместо нескольких кластерных GPU. Внутри чипа выделяют около 44 ГБ сверхбыстрой SRAM, а пропускная способность внутрикристальной сети, по оценкам, примерно в 200 раз выше пропускной способности NVLink у NVIDIA. 

Веса модели распределены по примерно 20 системам CS‑3, но при этом все эксперты MoE‑слоя, отвечающие за активные части, укладываются на одной пластине, что уменьшает накладные расходы на межкристаллический обмен. 

Пока что все это доступно только в корпоративном облаке Cerebras для клиентов уровня Fortune 500, с ценами на уровне средних и верхних тарифов GPU‑провайдеров, без захода в нишу «дешевого» медленного инференса.

В такой же период рынок инференса еще и накачивается деньгами: Cerebras вышла на IPO, привлекла около 5,5 млрд долларов и оценивается в 60 млрд, а в слухах фигурируют крупные контракты с OpenAI и активные перемещения в сегменте компаний вроде Groq, что делает текущий этап похожим на разгонную фазу перед следующим циклом игр «железо vs. цены».

AMD выпускает Instinct MI350P с 144 ГБ HBM3E для PCIe‑сборок

Рынок GPU расширяется. AMD продолжает агрессивно наступать на пятки лидеру рынка, делая ставку на то, что больше всего нужно современным LLM — на объем и скорость памяти. Их новый туз в рукаве в формате привычного pci-устройства.метит прямиком в корпоративный сегмент.

Печатная плата ускорителя AMD Instinct MI350P без кожуха. Виден центральный графический процессор с чиплетной компоновкой, окруженный модулями памяти HBM3e и элементами системы питания.

Печатная плата ускорителя AMD Instinct MI350P без кожуха. Виден центральный графический процессор с чиплетной компоновкой, окруженный модулями памяти HBM3e и элементами системы питания. Источник.

AMD показала Instinct MI350P — ускоритель для инференса и RAG‑пайплайнов, который умещается в стандартный PCIe‑слот, но при этом уже сейчас считается самым быстрым PCIe‑карточным решением в сегменте enterprise‑инференса. 

У карты 128 compute units, 8 192 обычных и 512 матричных ядер, а также 144 ГБ памяти HBM3E с пропускной способностью 4 ТБ/с. По теоретической производительности в FP16 и FP8 она примерно на 40% обходит текущий флагман NVIDIA — H200 NVL.

MI350P базируется на архитектуре CDNA4 и техпроцессе 3/6 нм от TSMC. Максимальная частота — около 2,2 ГГц, на борту 128 МБ кэша последнего уровня (LLC). Карта двухслотовая, длиной 10,5 дюймов. Потребление составляет 600 Вт, но его можно задушить до 450 Вт для серверов с жесткими лимитами по теплу. В FP64 новинка на 20% быстрее H200 NVL, а в FP16 и FP8 отрыв составляет 43% и 39%. Отличный вариант для инференса и работы с большими векторными контекстами на стандартном воздушном охлаждении.

Карта поддерживает форматы MXFP6 и MXFP4 — это позволяет эффективно сжимать веса моделей без серьезной потери точности. AMD заявляет поддержку до восьми MI350P в рамках одного сервера. Это дает реальную возможность масштабировать инференс-нагрузку без необходимости сразу переходить на full‑rack решения. 

Важно, что NVIDIA до сих пор не выпустила PCIe-версию чипа Blackwell (B200). Поэтому MI350P сейчас фактически остается самым мощным PCIe-ускорителем на рынке — если вынести за скобки доминирование экосистемы CUDA и то, насколько быстро платформа ROCm сможет привлечь разработчиков под себя.

Появление карт со 144 ГБ быстрой памяти HBM3E позволит локально крутить тяжелые модели с огромным контекстом на уже существующей инфраструктуре. Однако, когда вам будет мало одного сервера и понадобятся уже десятки и сотни таких прожорливых PCIe-плат, на первый план выходит софт для контроля за их утилизацией и стабильностью. И у «зеленых» как раз готов масштабный ответ на эту проблему.

NVIDIA Fleet Intelligence: мониторинг и оптимизация парка GPU в реальном времени

На майских NVIDIA представила Fleet Intelligence — агент‑сервис для мониторинга и оптимизации крупных GPU‑ландшафтов, который изначально выглядел как «еще один модуль в NGC», но на деле закрывает вполне ощутимую боль системных инженеров: отсутствие единой, низкоуровневой видимости по десяткам и сотням ускорителей в разнородной инфраструктуре. 

Источник.

Источник.

Вместо того чтобы довольствоваться выводом nvidia-smi и логами, в которых каждый node живет отдельно, Fleet Intelligence забирает метрики напрямую с хостов, склеивает их в облаке и выдает единые панели по состоянию всего парка, включая питание, температуру, производительность, health GPU/CPU и целостность конфигурации.

Сервис работает через легкий агент, который разворачивается на GPU‑нодах через пакетный менеджер или Helm, и опирается на DCGM, GPUd и собственный Attestation SDK, то есть фактически использует уже знакомые инструменты, но в упаковке «managed service». 

В дашборде можно увидеть не только суммарную загрузку GPU и памяти, но и разбивку по зонам, выделение аномалий по температуре, питанию, ошибкам ECC и XID, а также отдельные health‑чеки, которые выявляют девиации, пока они не превратились в сбои. Важно, что агент читает метрики, но не меняет настройки, а сам код выложен в открытом репозитории, что снижает барьер для интеграции в строгих enterprise‑окружениях.

Отдельная часть функциональности отдана контролю целостности и аттестации: через технологии NVIDIA Confidential Computing и Attestation SDK сервис проверяет, что в каждом GPU установлен корректный образ прошивки, и не был ли узел как‑то подменен или допущен физический несанкционированный доступ. Измерения с GPU подписываются с помощью root of trust, уходят в NRAS‑сервис, где сверяются с эталонными RIM‑манифестами, а в итоге в дашборде отображается проверка целостности всего парка — это уже не просто «какой‑то чип где‑то перегрелся», а управляемая модель доверия к инфраструктуре под LLM‑ и агентные нагрузки.

Такой уровень контроля очень хорошо вписывается в картину последних месяцев: в то время как Cerebras и AMD делают акцент на том, как ускорить один запрос или как упаковать сотни гигабайт памяти в PCIe‑формфактор, NVIDIA, по сути, отвечает на вопрос, как удержать этот рост в контроле и не превратить мощный парк ускорителей в «черный ящик» с пропадающими SLA и непонятными тич‑временами.

NVIDIA планомерно строит вокруг своего железа софтверную экосистему. Это логично, ведь под задачи Agentic AI и тяжелых LLM мощностей требуется все больше. Если вы как раз уперлись в потолок текущего поколения GPU и ищете, где развернуть масштабный инференс, то есть решение.

Сервера на базе NVIDIA® HGX™ B300 в Selectel

Это наглядный пример того, на каком железе стоит разворачивать крупномасштабные агентские системы и тяжелые LLM. Линейка выделенных серверов Selectel пополнилась новой конфигурацией GL8-B300-HGX-25GE, спроектированной специально под сверхтребовательные AI-задачи. 

Аренда NVIDIA B300: сервер для ИИ-проектов и LLM с GPU NVIDIA HGX В300

NVIDIA B300: сервер для ИИ-проектов и LLM. Источник.

Сервер построен на базе флагманской платформы NVIDIA® HGX™ B300 для дата-центров, объединяющей восемь ускорителей на архитектуре Blackwell. Машина ориентирована как на распределенное обучение, так и на высокоскоростной инференс. 

Суммарно в системе 2,3 ТБ VRAM, выдавая пиковую производительность до 192 петафлопс.Такие вычислительные показатели достигаются за счет аппаратной поддержки стандарта NVFP4. Помимо привычного для ML-инженеров формата BF16, обеспечивающего 16-битную точность для дообучения и последующей квантизации, и компактного 8-битного FP8, архитектура Blackwell позволяет агрессивно сжимать веса моделей без критической потери качества. 

Показательный пример — архитектура семейства DeepSeek. Их параметры преимущественно переведены в FP8, и только критически важные элементы (например, скрытые состояния или механизмы внимания в некоторых слоях) оставлены в BF16. 

Новый стандарт NVFP4 идет еще дальше и предназначен для 4-битной квантизации. По заявлениям NVIDIA, падение качества инференса при этом составляет менее 1% относительно FP8, в то время как физический размер модели сокращается почти вдвое. При столь экстремальном сжатии точность сохраняется за счет блочного хранения данных. 

NVFP4 опирается на встроенные масштабные коэффициенты и базовые переменные, что позволяет прямо в процессе вычислений восстанавливать содержимое блока весов до точности FP8. Концептуально идея не нова: открытые форматы MXFP и GGUF устроены похожим образом, однако в чипах Blackwell эта логика впервые зашита на аппаратном уровне. Прирост эффективности здесь линейный: перевод модели из BF16 в FP8 ускоряет инференс почти в два раза, а внедрение NVFP4 дает буст еще в 1,8 раза по отношению к FP8. 

А если собирать собственный кластер из B300 или AMD пока избыточно, а контролировать бюджет и API нужно уже сейчас — получите выделенный инстанс GenAI-моделей с почасовой оплатой за пару кликов или запросов в API в Selectel Foundation Models Catalog.

Теория хороша на бумаге, а на практике инженерам нужны твердые независимые бенчмарки на реальных сценариях. И ответ на этот вопрос дает масштабное обновление главного мирового табеля о рангах, который в этом месяце полностью переписали под новые реалии распределенных вычислений.

MLPerf Training v6.0: в бенчмарки попали DeepSeek‑V3 и GPT‑OSS 20B

Железо меняется не просто так: индустрия почти полностью ушла от монолитных моделей к архитектурам со смесью экспертов. Естественно, мериться производительностью кластеров по старым правилам больше не получается. Чтобы дать инженерам честные ориентиры для тестирования распределенного обучения, консорциум MLCommons полностью обновил методологию своих тестов.

Организация MLCommons официально запустила MLPerf Training v6.0, в котором впервые появляются стандартные бенчмарки для распределенного обучения моделей со смесью экспертов, а не только для плотных архитектур. В качестве новых открытых стандартов фигурируют два LLM‑бенчмарка: DeepSeek‑V3 с 671 млрд параметров, из которых 37 млрд активируются на токен, и более компактная GPT‑OSS 20B, тоже построенная по разреженной схеме MoE.

DeepSeek‑V3 в MLPerf задается как задача пред‑обучения LLM на корпусе C4 с длиной последовательности 4 096 токенов. Лимит глобального размера батча (Global Batch Size) задан на уровне от 15 360 последовательностей. Это явно ориентировано на продакшен-сценарии, а не на разовые синтетические тесты с малой нагрузкой.

Бенчмарк фиксирует главные отраслевые архитектурные тренды:

  • низкоранговое внимание (Multi-head Latent Attention, MLA);

  • мелкоблочную сегментацию экспертов (Fine-grained Experts);

  • балансировку нагрузки между экспертами без использования вспомогательной функции потерь (Auxiliary-loss-free Load Balancing).

Это делает его отличным прокси-тестом для инфраструктурных команд, которые оптимизируют кластеры под MoE-модели.

В то же время тест GPT-OSS 20B изначально задуман как более доступный бенчмарк. Его можно прогонять даже на одной ноде с 8 GPU, но при этом сохраняется строгое требование к сходимости модели на заданном уровне perplexity.

Но большинству компаний все еще выгоднее брать готовые модели с open-weight и быстро упаковывать их в агентские сценарии. Благо разработчики инфраструктуры это понимают и выкатывают под это дело специализированные инструменты, где во главу угла ставят скорость отклика.

Token Superposition Training: как ускорить предобучение LLM 

Предобучение больших языковых моделей с нуля — самый дорогой этап в ML-инжиниринге. Метод Token Superposition Training (TST) от исследователей из Nous Research позволяет сократить реальное время обучения (wall-clock time) в 2–3 раза при фиксированных затратах вычислительной мощности (FLOPs). При этом подход не требует изменений в архитектуре модели, оптимизаторе, токенизаторе или датасете.

Весь цикл обучения делится на две фазы:

  • Суперпозиция (первые 20–40% этапа). Модель считывает пакеты из нескольких последовательных токенов, усредняет их эмбеддинги на входе и учится предсказывать сразу следующую группу токенов целиком через модифицированную кросс-энтропию.

  • Восстановление. Модель бесшовно возвращается к стандартному пошаговому предсказанию (next-token prediction).

Главный профит — экономия GPU-часов. На тесте MoE-конфигурации (Mixture of Experts) объемом 10 млрд параметров TST-метод потребовал всего 4 768 часов на ускорителях NVIDIA B200, тогда как классический подход при аналогичном качестве и бюджете FLOPs занял 12 311 часов. Экономия времени и бюджета на аренду инфраструктуры составила 2,5 раза.

Нюанс: метод агрессивнее расходует сами токены из датасета. Он идеален для сценариев, ограниченных мощностью железа (compute-bound), но не подойдет для проектов, где критически не хватает обучающих данных.

Adaptive Parallel Reasoning: как LLM сами управляют параллельными рассуждениями

Новейший тренд в оптимизации — научить модель разделять сложные задачи на параллельные потоки вычислений прямо в процессе генерации.

В детальном разборе парадигмы Adaptive Parallel Reasoning (APR) на BAIR‑блоге показали, как языковые модели начинают встраивать параллельный режим рассуждений прямо в свой control flow, а не полагаться на внешние обертки вроде self‑consistency, Best‑of‑N или Tree‑of‑Thoughts. Суть в следующем: модель учится сама решать, когда ей выгодно разбить задачу на несколько независимых потоков, сколько таких потоков запускать и как координировать их в зависимости от сложности запроса, вместо того чтобы всегда тянуть один длинный CoT‑поток.

Сравнение подходов к вычислениям: последовательное рассуждение LLM (слева) против адаптивного параллельного выполнения подзадач (справа). Источник.

Сравнение подходов к вычислениям: последовательное рассуждение LLM (слева) против адаптивного параллельного выполнения подзадач (справа). Источник.

Суть APR в том, что модель сама, прямо во время работы, решает, когда ей думать последовательно, а когда — запустить параллельные вычисления. Для этого не нужно менять архитектуру нейросети, пересобирать токенизатор или использовать внешние скрипты-обертки. Модель управляет процессом на лету с помощью специальных служебных токенов, которые активируют конструкции вроде spawn() и join().

Внутри них модель генерирует несколько независимых «витков» рассуждений через дочерние потоки, а затем собирает их в единый финальный вывод, не перегружая контекст одним сверхдлинным последовательным треком. В отличие от классических схем, где параллелизм задают заранее (например, 20 путей в Best‑of‑N или жесткая структура дерева), APR побуждает модель обучаться на практике, когда задача действительно выигрывает от параллельной разборки, а когда лучше оставить все в одном последовательном режиме, чтобы не тратить токены и вычисления впустую. 

В разборке подробно расписаны разные реализации, включая Multiverse, ThreadWeaver, NPR и Parallel‑R1: они отличаются тем, как управлять KV‑кэшем, как вознаграждать параллелизм в RL‑обучении и насколько активно трогать сам инференс‑движок. В некоторых вариантах умело «сшивают» кэши разных потоков, чтобы избежать повторного префила, а в других полностью оставляют движок нетронутым, перекладывая координацию на клиентскую сторону за счет небольшого пересчета текста при финальной агрегации. 

В этом свете APR становится не просто «модой» в рассуждениях, а элементом инфраструктурного стека, где тот же compute на том же железе начинает реально уменьшать wall‑clock‑задержку сложных задач, а не только улучшать точность в синтеческих бенчмарках.

SambaNova и Responses API для кодовых агентов

SambaNova анонсировала поддержку интерфейса Responses API для ключевых моделей в своем облаке. Это заметно упрощает интеграцию ИИ-агентов, позволяя им генерировать строго структурированный вывод сразу в удобном для кода формате, минуя свободный текст. Для разработчиков это означает отказ от ручной валидации JSON-схем, предсказуемую генерацию кода и возможность напрямую извлекать блоки кода, diff или аргументы CLI без использования хрупких парсеров и регулярных выражений.

Схема распределения контекста в кодинг-агентах: перенос тяжелого инференса на быструю и дешевую open-weight модель. Источник.

Схема распределения контекста в кодинг-агентах: перенос тяжелого инференса на быструю и дешевую open-weight модель. Источник.

Стоит отметить, что Responses API — это новая парадигма взаимодействия, изначально предложенная OpenAI для создания комплексных агентных систем (со встроенным веб-поиском, песочницами для запуска кода и поддержкой MCP). Интеграция этого стандарта со стороны SambaNova — сильный шаг, который позволяет разработчикам бесшовно мигрировать с инфраструктуры OpenAI на сверхбыстрые чипы RDU от SambaNova, не переписывая логику работы с эндпоинтами.

Как вам такие тренды? Полетит ли метод TST в реальном продакшене, или экономия на обучении разобьется о нехватку качественных датасетов? И готовы ли вы тестировать чипы RDU от SambaNova как альтернативу CUDA? Делитесь вашим мнением в комментариях.