Что такое Gemma 4: обзор новой LLM от Google

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь

rnbparty · 2026-05-21 · via Все публикации подряд на Хабре

Все о Gemma 4: обзор семейства, сравнение с GPT / Claude / GigaChat, бенчмарки и стоимость запуска в 2026 году

2 апреля 2026 года Google DeepMind выпустила Gemma 4. В отличие от GPT, Claude и Gemini, GigaChat и других облачных API, это открытая модель: ее можно бесплатно скачать и запустить на собственном сервере, ноутбуке и даже смартфоне, используя в коммерческих целях без ограничений и лицензионных отчислений.

Впервые открытая LLM практически сравнялась по качеству с лидерами облачного рынка, сохранив при этом «любительские» требования к оборудованию: с одной стороны, флагманская Gemma 4 31B, которая входит в тройку сильнейших открытых моделей (по версии Arena AI), помещаясь на GPU уровня RTX 4090. С другой — младшая Gemma 4 E2B, занимающая около 1,5 ГБ и способная эффективно работать без интернета, прямо на смартфоне.

Именно этот диапазон — от локального AI на мобильном устройстве до корпоративных RAG-систем и серверной аналитики — делает Gemma 4 одной из самых интересных open-source-моделей 2026 года. Интересных настолько, что в ряде клиентских проектов, которые требуют внедрения локальной LLM, мы уже используем Gemma 4, заменив ею Ollama.

Вот на этой ноте, предлагаем свой взгляд на то, как устроено семейство Gemma 4, чем новые модели отличаются от предыдущих версий, насколько конкурентоспособны на фоне GPT, Claude, Qwen, DeepSeek и GigaChat и сколько стоит их локальное развертывание.

Что нового в Gemma 4

Главный сдвиг Gemma 4 — в практичности. Модель стала не просто «умнее» — это как раз ожидаемо для каждого нового поколения. Важнее другое: Google заметно приблизила открытую LLM к элементарному прикладному использованию, когда не столько важны бенчмарки, сколько стоимость запуска, взаимодействие с внешними инструментами и разные классы железа. Но обо всем по порядку!

Лицензия

Очевидным недостатком Gemma 3 была лицензия Gemma Open License, ограничивающая полноценное коммерческое использование продукта.

Юридически она не относилась к категории open-source (открытое ПО): инициатива открытого исходного кода ее не одобряла, и корпоративным юристам приходилось проводить отдельный анализ перед использованием модели. Виной всему были три пункта:

отдельная политика запрещенного использования, которую Google могла менять в одностороннем порядке (продолжение использования автоматически означало согласие с новой редакцией);
обязательство передавать эти ограничения всем конечным пользователям продукта по цепочке;
право Google удаленно ограничивать использование модели по своему усмотрению, что нетипично для стандартных лицензий с открытым исходным кодом.

В результате, несмотря на потенциал, Gemma 3 активно использовалась в исследовательских проектах и личных разработках, но в продакшене команды по-прежнему полагались на проприетарные API.

Поэтому главным изменением в Gemma 4, на наш взгляд, является переход на лицензию Apache 2.0 — золотой стандарт открытого исходного кода, одобренный Open Source Initiative: модель можно использовать в коммерческих продуктах, дорабатывать, продавать решения на ее основе без ограничений по количеству пользователей, без обязательных согласований и отчислений в пользу Google.

Apache 2.0 уже много лет входит в утвержденные списки корпоративных юридических отделов, и не требует отдельной процедуры согласования — т. е., то самое «узкое место», которое было в Gemma 3, исчезло.

«Смесь экспертов» (Mixture-of-Experts)

В классической плотной (dense) модели все параметры участвуют в обработке каждого токена. Это означает, что на каждое слово ответа работает вся модель — все миллиарды нейронов. Качество при таком подходе выше, однако и вывод становится дороже и медленнее. Так, например, устроена версия 31B из той же линейки Gemma 4.

Но! В текущем релизе есть 26B A4B — модель, которая впервые использует архитектуру Mixture-of-Experts, MoE. В этом случае память делится на группы «экспертов», которые, благодаря механизму роутинга, используются выборочно, на основе оценки смыслового соответствия каждой группы входным токенам. В результате из всей массы параметров одновременно активна только малая часть, остальные в обработке не участвуют.

Эффект заметен сразу: модель становится дешевле и быстрее классических аналогов сопоставимого размера, при этом не проваливается по качеству до уровня компактных аналогов.

То есть: 26B A4B — это не «урезанная» версия флагмана, а крепкая рабочая лошадка, подходящая для потоковых задач, в которых витринная 31B будет избыточной по стоимости: внутренние ассистенты, анализ документов, оперативная поддержка сотрудников.

Однако есть нюанс (куда же без них): Mixture-of-Experts снижает стоимость вычислений, но не экономит видеопамять в той же пропорции. Вам все равно придется загрузить в VRAM все доступные модели миллиарды параметров, так как маршрутизатор, распределяющий «экспертов», в любой момент должен иметь доступ к каждому из них. Поэтому для 26B A4B по-прежнему нужна видеокарта с 16–24 ГБ VRAM — как для полноценной модели.

Гибридное внимание (Hybrid Attention)

Согласно официальному блогу Google Developers, для обработки запросов Gemma 1 использовала только глобальное внимание (все слои смотрят на весь контекст). Gemma 2 ввела гибридный подход, чередуя локальные и глобальные слои в соотношении 1:1 — локальное окно 4096 токенов. Gemma 3 сдвинула соотношение до 5:1 (пять локальных слоев на один глобальный), сократив локальное окно до 1024 токенов, что позволило поднять контекст до 128K.

Gemma 4 продолжила ту же тенденцию, доверив стабильную работу с запросами механизму гибридного внимания, но расширила общий контекст до 256K.

В чем суть: стандартная проблема длинного контекста в том, что чем больше текста видит модель, тем дороже становится обработка запроса. Если каждый текущий фрагмент раз за разом сопоставлять со всем документом целиком, нагрузка на видеокарту быстро становится чрезмерной.

При гибридном внимании часть слоев работает локально: модель анализирует ближайший фрагмент текста вокруг конкретного места, сверяя детали с полным контекстом лишь периодами, через заданные интервалы. В итоге основная масса вычислений идЕт по узкому окну (дешево), а глобальная связность документа обеспечивается обязательными, но редкими глобальными слоями.

Таким образом, модель получает преимущество длинного контекста, но без полной вычислительной цены за него. Она может работать с большими документами — договорами, отчетами, регламентами, технической документацией — целиком, но основная масса нагрузки идет по небольшим участкам. Для нас это означает более точный анализ длинных материалов при разумной стоимости инфраструктуры.

Послойные эмбеддинги (Per-Layer Embeddings)

Послойные эмбеддинги уже использовались Google в Gemma 3n, но только в Gemma 4 этот подход стал частью общей стратегии: сделать младшие модели достаточно легкими для локального запуска, не обрушив качество ответов. Именно за счет PLE версии E2B и E4B работают на телефонах, ноутбуках и встраиваемых устройствах, не требуя тяжелой серверной инфраструктуры.

Если просто, PLE — это способ распределить память о словах по внутренним слоям модели, а не держать одним огромным куском. Каждый слой получает только ту часть информации, которая нужна ему на своем этапе обработки. Такая модель сохраняет больше знаний и точнее понимает текст, но не нагружает устройство так, как если бы вся эта информация постоянно и одновременно работала.

Именно поэтому E2B и E4B получаются компактными, но не выглядят как проходные модели малого размера, на сдачу. Они вполне уверенно дают качество выше своего весового класса и подходят для сценариев, где раньше приходилось выбирать между ограниченным локальным ИИ и обращением к облаку: мобильные приложения, офлайн-ассистенты, промышленные планшеты, терминалы, робототехника и корпоративные ноутбуки.

Как итог: Per-Layer Embeddings позволяют запускать локальный ИИ достаточно серьезного уровня прямо на устройстве — без передачи данных во внешний сервис и без покупки отдельного сервера ради базовых AI-функций.

Вызов функций (Function calling)

Чтобы быть полезной, языковой модели уже недостаточно просто отвечать в чате, ей нужно обращаться к базам данных, уметь читать документы, вызывать внутренние сервисы, запускать расчеты и передавать результат дальше по цепочке. Для этого используется механизм вызова функций, он заставляет модели не просто писать текст в ответ, а в нужный момент формировать и администрировать структурированные запросы.

В Gemma 4 работа с инструментами поддерживается нативно: модель умеет выбирать подходящую функцию, собирать запросы к нужной функции и продолжать рассуждение уже с учетом полученного результата. Это заметный шаг вперед по сравнению со старыми открытыми моделями, где агентное поведение часто приходилось имитировать промптами и внешними правилами.

Например, если попросить ее подготовить отчет о продажах за квартал, Gemma 4 определит, какие данные потребуются, сформируют SQL-запрос, передаст его внешнему модулю, получит таблицу с результатами и затем оформит вывод в понятный отчет. При этом сама модель не выполняет SQL и не запускает код — за это отвечает прикладной слой. Но человеку уже не нужно вручную прописывать каждую ветку сценария: значительную часть выбора и планирования берет на себя модель.

В прикладном плане это означает, что Gemma 4 можно использовать не только как чат-бота, но и как управляющий слой для внутренних ИИ-инструментов: отчетности, поиска, автоматизаций и агентных процессов. Отдельный плюс — возможность заранее задавать правила работы модели: какие данные можно использовать, какие действия запрещены, когда нужно запросить подтверждение, а когда — вернуть отказ. В многошаговых сценариях это особенно важно: модель не просто выполняет отдельный запрос, а проходит цепочку действий согласно системной инструкции.

Режим рассуждений (Thinking mode)

Режим рассуждений не является уникальной разработкой: похожий подход уже есть в GPT o-серии, Claude и других сильных моделях. Но для открытой линейки Google это важный шаг вперед: теперь все модели Gemma 4 поддерживают настраиваемый thinking mode, то есть используют больше ресурсов на проверку и планирование ответа.

Рассуждения лучше включать выборочно. Дело в том, что для простых запросов — классифицировать обращение, пересказать документ, извлечь дату, сумму или имя — он избыточен, дополнительный анализ расходует ресурсы, но ничего нового и полезного не дает.

Однако для сложных сценариев, thinking mode — это сильное преимущество: модель лучше сопоставляет условия, удерживает несколько зависимостей одновременно и реже ограничивается поверхностным пересказом.

Нагляднее всего эффект заметен при сравнении поколений: Gemma 3 27B набрала на математической олимпиаде AIME 2026 всего 20,8%, а Gemma 4 31B — 89,2%. Прирост объясняется не только архитектурными изменениями: именно режим мышления позволяет модели перед окончательным ответом развернуть до 4 тыс. токенов внутренней цепочки рассуждений, шаг за шагом проверяя логику, не выдавая результата сразу.

Мультимодальность

Gemma 4 — не текстовая модель с «прикрученным» распознаванием картинок, а полноценная мультимодальная линейка. Все версии работают с текстом и изображениями, поддерживают видео как последовательность кадров, а младшие E2B и E4B дополнительно принимают аудио. При этом ответ модель по-прежнему генерирует в текстовом виде — то есть она не создает изображение или звук, а анализирует входные данные и возвращает текстовый результат.

Практически это означает, что Gemma 4 можно использовать для задач, в которых данные приходят в «грязном» виде: скан договора, фото накладной, скриншот интерфейса, таблица, график, фотоотчет с объекта или короткий видеофрагмент.

С аудио ситуация уже: формат поддерживается не всей линейкой, а только E2B и E4B. Эти модели обучены для многоязычного распознавания речи и перевода речи в текст; официальный лимит — до 30 секунд аудио, стоимость входа — 25 токенов за секунду записи, обработка идет в одном канале с частотой 16 кГц. То есть это не замена полноценной контакт-центровой платформы с диаризацией (технология обработки аудиозаписей) и длинными звонками, но хороший встроенный механизм для коротких голосовых команд, заметок, фрагментов переговоров и локальных voice-first-сценариев.

Главный эффект — меньше внешних компонентов в цепочке. В классической схеме пришлось бы отдельно подключать функцию оптического распознавания символов (OCR, Optical Character Recognition) для сканов, speech-to-text-движок для аудио, парсер таблиц и уже потом отдавать очищенный текст языковой модели. В Gemma 4 значительная часть этой логики доступна «из коробки», без обращения к облачному сервису.

Ограничение тоже стоит проговорить: в критичных сценариях отдельный OCR или специализированный speech-to-text все еще может понадобиться — например, если требуется юридически проверяемое распознавание, работа с длинными звонками, разметка спикеров или стабильная обработка плохих сканов. Но для большого класса корпоративных задач мультимодальность Gemma 4 снижает сложность архитектуры и позволяет держать файлы и документы внутри собственного контура.

Семейство Gemma 4: линейка версий, сценарии

Описанные выше архитектурные приемы делают понятной логику, которой руководствовалась команда Google, выпуская Gemma 4 линейкой сразу из четырех версий. Семейство собрано не по принципу «маленькая, средняя, большая», а по сценариям эксплуатации: модель для устройства, для персональной работы, для компаний и отдельная — для задач, где качество важнее стоимости.

Это необычно, потребитель, как правило, получает одну-две модели разного размера, а дальше сам решает, как ужать их под ноутбук, как развернуть на сервере и как встроить в продукт. В Gemma 4 эта логика частично заложена уже на уровне линейки: каждая версия заранее рассчитана на свой класс железа и свой тип нагрузки.

Такой подход делает Gemma 4 не просто набором моделей, а готовой матрицей выбора. Компании не нужно начинать с вопроса «какую LLM мы вообще потянем?». Вопрос ставится проще: где будет работать система, какая ожидается нагрузка и насколько критично качество ответа. Под эти ответы в линейке уже есть отдельная конфигурация.

Gemma 4 E2B — мобильная и периферийная модель

Gemma 4 E2B — самая компактная модель семейства, рассчитанная на edge- и mobile-сценарии. Несмотря на небольшой размер — около 2 миллиардов параметров, — это полноценная multimodal-модель с плотной архитектурой и оптимизацией через Per-Layer Embeddings, благодаря которой она занимает около 1,5 ГБ памяти в сжатом (4-bit) варианте.

Главная особенность E2B в том, что модель изначально проектировалась не под серверы, а под локальный запуск на потребительских устройствах. Она работает на смартфонах через Google AI Edge Gallery, запускается на Raspberry Pi 5, Jetson Nano и поддерживает inference прямо в браузере через WebGPU. На практике это означает возможность встроить ИИ в мобильное приложение или периферийное устройство без постоянного подключения к облаку.

Основные сценарии здесь — офлайн-голосовые ассистенты, локальная обработка документов, классификация и суммаризация текстов на устройстве пользователя, а также edge-аналитика в промышленности и IoT. Для бизнеса это особенно важно в средах с ограниченной связью или жесткими требованиями к приватности данных.

Ключевое отличие E2B от большинства компактных моделей — встроенный аудиовход. До появления Gemma 4 локальная голосовая обработка обычно требовала отдельного speech-to-text-стека вроде Whisper или обращения к облачному API. Здесь же распознавание речи становится частью самой модели, что заметно упрощает архитектуру мобильных и edge-приложений.

Gemma 4 E4B — легкий помощник на ноутбуке

Gemma 4 E4B — промежуточная модель, рассчитанная на сценарии, где компактной E2B уже недостаточно по качеству, а серверная 26B пока избыточна. Архитектура здесь та же — плотная, с Per-Layer Embeddings, — но масштаб увеличен до эффективных 4 миллиардов параметров, что дает более стабильное качество генерации и задач с рассуждениями.

Модель ориентирована на локальный запуск на «обычном» железе: ноутбуках с 8 ГБ оперативной памяти, GPU с 6–8 ГБ VRAM, на устройствах для робототехники и периферийных вычислений вроде Jetson Orin.

E4B — это модель для тех случаев, когда ИИ уже действительно нужен, но сервер под него покупать еще рано. Она подходит для персональной работы с приватными документами, кодом, отчетами, договорами и черновиками: качество заметно выше, чем у E2B, а требования к железу остаются на уровне обычного ноутбука или рабочей станции.

Поэтому ее сильная сторона — не мощность, а практичность. E4B закрывает промежуток между мобильным ИИ и полноценным корпоративным развертыванием: ее можно использовать локально, без облака и без отдельного серверного контура. А встроенный аудиовход делает модель удобной не только для текстовых, но и для голосовых сценариев без внешнего движка распознавания речи.

Gemma 4 26B A4B — выбор для корпоративных задач

Gemma 4 26B A4B — основная модель семейства для масштабных ИИ-систем. Она построена на архитектуре Mixture-of-Experts: из 26 миллиардов параметров при обработке каждого запроса активны только 3,8 миллиарда. Поэтому по качеству модель близка к dense-решениям класса 26B, а по скорости и стоимости вывода — к компактным 4B-моделям.

Это делает 26B A4B наиболее практичной версией Gemma 4 для бизнеса. Ее можно запускать на GPU уровня RTX 4090 с 16–24 ГБ VRAM или на серверных ускорителях среднего класса, без полноценного кластера. В квантовых версиях Gemma 4 26B A4B помещается даже на 16-гигабайтных видеокартах, заметно снижая порог входа для бизнеса.

Ниша 26B A4B — поток задач уровня большой компании: внутренние ИИ-ассистенты, RAG-системы, анализ документов, генерация отчетов, автоматизация первой линии поддержки и пилотные AI-функции в продуктах. Для таких сценариев это, пожалуй, самая рациональная точка входа в Gemma 4: качество близко к старшей 31B, а требования к инфраструктуре и стоимость эксплуатации существенно ниже.

Gemma 4 31B — флагман для максимального качества

Gemma 4 31B — флагманская модель и максимальный уровень качества в линейке. Это классическая dense-модель на 30,7 миллиарда параметров без компромиссов в пользу скорости или экономии вычислений за счет Mixture-of-Experts. Такой подход дороже по вычислениям, но дает более стабильное качество и предсказуемое поведение в сложных задачах.

В рейтинге Arena AI она занимает третье место среди open-source-моделей мира, уступая только значительно более крупным системам.

В полной точности bfloat16 модель запускается почти без агрессивного сжатия весов: параметры хранятся в 16-битном формате, который сохраняет качество ответа, но требует много видеопамяти. Поэтому для Gemma 4 31B в таком режиме нужны серверные GPU с 80 ГБ VRAM, например, NVIDIA H100, а в quantized-вариантах Q4/Q5/Q8 ее можно запускать на видеокартах с 24+ ГБ VRAM — RTX 4090, RTX A6000 и аналогах. Для модели такого класса это важное преимущество: еще недавно сопоставимые open-source-системы требовали полноценного GPU-кластера.

Основные сценарии для 31B — юридический анализ, финансовая аналитика, медицинские AI-системы, работа с длинными документами, программирование и специализированные корпоративные ассистенты. То есть задачи, где важны не только скорость ответа, но и качество рассуждения, устойчивость к ошибкам и способность удерживать сложный контекст.

Отдельное достоинство 31B — дообучение под отраслевую специфику. Dense-архитектура проще и предсказуемее в тонкой настройке, чем Mixture-of-Experts: не нужно дополнительно балансировать роутинг между экспертами.

В общем, это модель не для массового потока простых запросов, а для сценариев, где качество важнее стоимости вывода. Если 26B A4B — рабочая корпоративная конфигурация, то 31B — версия для сложных задач, отраслевой адаптации и случаев, где ошибка модели стоит дороже инфраструктуры.

Как выбрать версию Gemma 4 под задачу

У каждой версии Gemma 4 своя зона ответственности. Поэтому правильнее будет рассматривать модель не по мощности, а по соответствию нагрузке, инфраструктуре и цене ошибки.

Если нужен ИИ прямо на устройстве — в мобильном приложении, промышленном контроллере, терминале или голосовом помощнике, — логичный выбор Gemma 4 E2B. Это версия для сценариев, где важны автономность, минимальные требования к железу и отсутствие зависимости от интернета.

Если модель нужна одному специалисту или небольшой команде — разработчику, аналитику, редактору, юристу, внутреннему отделу до нескольких десятков пользователей, — разумнее смотреть на Gemma 4 E4B. Она закрывает нишу персонального локального ИИ: уже заметно сильнее мобильной версии, но еще не требует отдельного серверного контура.

Для большинства корпоративных внедрений стартовой точкой будет Gemma 4 26B A4B. Это рабочая модель для внутренних ассистентов, RAG-систем, анализа документов, генерации отчетов и поддержки сотрудников. Ее смысл — обслуживать регулярный поток запросов с хорошим качеством ответа и без чрезмерной стоимости инфраструктуры.

Gemma 4 31B будет полезна там, где цена ошибки выше стоимости вычислений: юридический анализ, медицина, финансовая аналитика, сложные расследования, отраслевое дообучение и специализированные корпоративные ассистенты. Это не модель для каждого запроса, а флагманская версия для задач, где качество важнее скорости и экономии.

Плюс, важно: в реальных условиях чаще всего работает не одна модель, а связка. Компактные версии берут на себя простые операции — классификацию, фильтрацию, черновую обработку, быстрые ответы. 26B A4B обслуживает основной корпоративный поток. А 31B подключается уже там, где нужна максимальная точность. Такая каскадная схема позволяет не переплачивать за каждый запрос и при этом сохранять качество.

Gemma 4 и конкуренты

Оценивать Gemma 4 в отрыве от рынка бессмысленно: в 2026 году открытые языковые модели уже стали полноценной конкурентной средой. В этой категории работают Llama от Meta, Qwen от Alibaba, DeepSeek и GLM из Китая, Mistral из Франции. Параллельно остаются сильные облачные API — GPT от OpenAI, Claude от Anthropic, Gemini от Google, а также российские GigaChat и YandexGPT. У каждого подхода есть своя зона силы: одни модели лучше справляются со сложными рассуждениями, другие выигрывают в стоимости, третьи — в удобстве локального развертывания или требованиям к данным.

Наша позиция такова: в задачах предельно сложного анализа топовые проприетарные модели по-прежнему безальтернативны. Но для широкого круга корпоративных задач — Gemma 4 выглядит одним из самых рациональных вариантов на рынке по состоянию на май 2026 года!

Сравнительная таблица

Источники: официальные карточки моделей на Hugging Face, собственный анализ, независимые рейтинги LMArena и Hugging Face Open LLM Leaderboard, а также отчеты разработчиков. Показатели округлены до десятых; на разных площадках возможны расхождения в пределах 1–2 процентных пунктов из-за различий в методологии оценки.

В столбцах — типы задач, в строках — модели разных классов.

¹ MMLU Pro (знания и эрудиция) — тест на широкий круг профессиональных знаний: право, медицина, история, математика, естественные и социальные науки. Результат выше 85% обычно указывает на высокий уровень общей эрудиции и способность модели работать с междисциплинарными задачами.

² GPQA Diamond (научный анализ) — сложный научный бенчмарк с вопросами уровня аспирантуры и докторантуры по физике, химии и биологии. Тест используется для оценки не столько «знаний», сколько способности модели рассуждать в научном контексте и работать с нетривиальными задачами.

³ SWE-bench (программирование) — практический тест по программированию на основе реальных задач из GitHub: модель должна найти ошибку, изменить код и пройти проверку. Это один из наиболее приближенных к реальной работе разработчика бенчмарков, но результаты сильно зависят от методики оценки, поэтому расхождения в 2–5 процентных пунктов между источниками нормальны.

Эрудиция и знания

По широким профессиональным знаниям открытые модели в 2026 году почти догнали облачные API. Gemma 4 31B показывает 85,2% и отстает от лидера категории, Gemini 3.1 Pro, всего на 3–4 процентных пункта. Для типовых бизнес-задач — анализа документов, ответов на вопросы, классификации, подготовки справок — эта разница обычно не критична. Gemma 4 26B A4B уступает старшей версии примерно на 1,5 пункта, что ожидаемо для Mixture-of-Experts-архитектуры и в большинстве корпоративных сценариев практически не ощущается.

Научный анализ

Здесь отставание уже заметнее. Gemma 4 31B набирает 84,3%, тогда как Gemini 3.1 Pro — 94,3%. Для обычного корпоративного RAG, внутреннего ассистента или анализа регламентов это не принципиально, но в сложных медицинских, фармацевтических, юридических и исследовательских задачах разница может стать решающей. Если именно такие кейсы являются основой проекта и данные можно передавать в облако, выбор в пользу Gemini 3.1 Pro будет оправдан.

Программирование

Слабое место Gemma 4. При результате около 62% на SWE-bench модель заметно уступает лидерам: DeepSeek V3.2 и Claude Sonnet 4.6 показывают около 80%. Поэтому для задач, где главный сценарий — помощь разработчикам, исправление багов, ревью кода или работа с крупной кодовой базой, рациональнее смотреть в сторону специализированно сильных моделей.

Контекст и длинные документы

Контекстное окно Gemma 4 на 256 тысяч токенов — это примерно 500 страниц текста. Для большинства корпоративных задач такого объема более чем достаточно: договоры, регламенты, инструкции, базы знаний и внутренние документы помещаются в один запрос с большим запасом. Если нужна работа с целой кодовой базой или многотомным архивом за одно обращение, Llama 4 Scout с 10 млн токенов будет сильнее по объему контекста. Но по качеству рассуждений Gemma 4 выглядит сбалансированнее.

Российские API

GigaChat и YandexGPT в таблицу не включены, потому что по ключевым международным бенчмаркам нет достаточно прозрачных и независимо проверенных данных. По опыту, они обычно уступают лидерам в сложных рассуждениях, но сохраняют практическое преимущество для российского рынка: прямой доступ без обходных схем, локальная юридическая зона и более комфортное соответствие требованиям по обработке данных. Там, где важнее не максимальное качество ответа, а скорость интеграции и регуляторная предсказуемость, российские API остаются рабочим выбором.

Что в итоге? Очевидно, Gemma 4 не является безоговорочным лидером ни в одном отдельном бенчмарке. Ее сила в другом: она стабильно держится в верхней группе открытых моделей по ключевым задачам логического вывода и при этом не требует инфраструктуры уровня дата-центра. Qwen 3.5 397B, Llama 3.3 70B и DeepSeek V3.2 могут быть сильнее в отдельных сценариях, но для их запуска нужны несколько GPU или полноценный серверный кластер. Gemma 4 31B можно развернуть на одной мощной видеокарте.

Какой просится вывод из сравнения: Gemma 4 не про победу в каждом отдельном тесте, а про инженерный баланс. Она достаточно сильна для большинства корпоративных сценариев, достаточно компактна для локального запуска и достаточно открыта для коммерческого внедрения. Именно эта комбинация — качество, контролируемая инфраструктура и свобода использования делает ее востребованной на данном временном отрезке.

Какие задачи способна решать Gemma 4

Первый и самый очевидный сценарий — поиск и ответы по внутренним базам. Модель подключается к регламентам, договорам, инструкциям, Confluence, Jira, CRM или ERP и отвечает сотрудникам не из головы, а с опорой на документы. Это типовая основа для корпоративного RAG: справки для поддержки, помощник для HR, юридический ассистент, внутренний консультант по продуктам и процедурам.

Второй сценарий — разбор сложных документов. Gemma 4 умеет анализировать договоры, отчеты, медицинские выписки, технические инструкции, нормативные документы и длинные переписки. Здесь важны длинный контекст, режим рассуждений и возможность работать с файлами как с единым материалом, а не набором разрозненных фрагментов.

Третий сценарий — автоматизация действий внутри систем. За счет function calling модель может не только отвечать текстом, но и готовить запросы к базам данных, вызывать внутренние сервисы, запускать расчеты, собирать отчеты и передавать результат дальше по цепочке. В этом режиме Gemma 4 становится полноценным управляющим слоем для внутренних AI-инструментов.

Четвертый сценарий — обработка неструктурированных данных: сканов, изображений, таблиц на картинках, фотоотчетов, коротких видео и аудиозаписей. Это важно для медицины, промышленности, документооборота, контакт-центров и любых процессов, где данные живут не только в аккуратных текстовых файлах.

Пятый сценарий — локальный ИИ на устройстве. Младшие модели E2B и E4B можно использовать в мобильных приложениях, терминалах, ноутбуках, промышленных планшетах и встраиваемых устройствах. Это открывает сценарии, где облако неудобно или невозможно: слабая связь, закрытый контур, требования к автономности, работа на объекте.

Ограничения тоже нужно понимать заранее: Gemma 4 не заменяет внедрение как таковое. Для production-системы все равно нужны инфраструктура, мониторинг, права доступа, векторное хранилище, интеграции и команда, которая будет поддерживать решение. Но как основа для таких систем Gemma 4 выглядит сильной именно потому, что закрывает сразу несколько уровней: от персонального локального помощника до корпоративного RAG и агентных процессов внутри компании.

Стоимость запуска Gemma 4: от ноутбука до GPU-сервера

Главное преимущество Gemma 4 с точки зрения экономики — гибкость инфраструктуры. Семейство моделей покрывает диапазон от смартфона до полноценных серверных кластеров, поэтому стоимость входа будет зависеть не столько от самой модели, сколько от того, какую задачу компания пытается решить и какой уровень качества ей нужен.

Самый доступный сценарий — E2B и E4B. Версии работают на корпоративных ноутбуках, планшетах и смартфонах без отдельной серверной инфраструктуры. На них удобно проверять гипотезы: локальный ассистент, обработку сканов, поиск по документации, голосовой интерфейс или AI-функцию внутри приложения. Поэтому начинать внедрение Gemma 4 логичнее не с закупки серверов, а с небольшого пилота внутри отдельной команды.

Следующий уровень — Gemma 4 26B A4B для масштабных систем и внутренних ассистентов. Минимальная рабочая конфигурация строится вокруг одной RTX 4090 или аналогичной серверной GPU, процессора уровня Xeon/EPYC, 64–128 ГБ оперативной памяти и NVMe-хранилища. В российских условиях такой сервер обычно стоит 600–900 тыс. рублей в обычном исполнении и до 1,5 млн рублей в защищенном стоечном варианте с резервированием. Этого достаточно для десятков тысяч запросов в сутки — типичной нагрузки корпоративного ИИ-ассистента в компании на несколько сотен сотрудников.

Для большинства бизнес-задач именно 26B A4B будет наиболее рациональным выбором. Она закрывает RAG, внутренние copilot-системы, поиск по базе знаний, анализ документов, генерацию отчетов и автоматизацию поддержки без необходимости строить GPU-кластер. По качеству модель близка к старшей версии, но заметно дешевле в эксплуатации.

С Gemma 4 31B выбор зависит от требований к качеству. В квантованных вариантах Q4/Q5 ее можно запускать на инфраструктуре, близкой к 26B A4B, с умеренной потерей качества. Это хороший компромисс для задач, где нужен флагманский уровень, но бюджет на серверы ограничен. Полный запуск 31B без квантования — уже enterprise-уровень: GPU класса NVIDIA H100 или RTX PRO 6000, серверная платформа с резервированием и итоговая стоимость рабочего узла примерно 4–5,5 млн рублей.

Итого: для пилота лучше арендовать RTX 4090 у российских провайдеров вроде Selectel или VK Cloud и проверить нагрузку без капитальных затрат. При стабильном использовании и горизонте планирования от двух лет экономика постепенно смещается в сторону собственного оборудования. Для большинства компаний хватит конфигурации на RTX 4090 или A6000 под 26B A4B; H100 и RTX PRO 6000 нужны уже для тяжелой аналитики и максимального качества 31B.

Главное отличие Gemma 4 от облачных API — предсказуемость расходов. В облаке каждый новый пользователь и каждый новый сценарий увеличивают счет за токены. В локальной инфраструктуре основные затраты приходятся на запуск, а дальнейший рост нагрузки обходится заметно дешевле.

FAQ по Gemma 4

Apache 2.0 — это действительно «без подвохов»? Что говорят юристы крупных компаний?

Apache 2.0 — одна из старейших и самых проверенных лицензий с открытым исходным кодом, действующая с 2004 года. Она одобрена Open Source Initiative, используется в миллионах проектов (от Apache Hadoop до TensorFlow), юридические отделы крупных компаний, в том числе российских банков и госкорпораций, давно принимают ее без отдельной процедуры согласования.

Единственное обязательство — указывать авторство (что в продукте используется компонент под лицензией Apache 2.0) и сохранять файл лицензии. Это формальность, не ограничивающая бизнес.

Gemma 4 «знает» русский язык или нужна доработка?

Знает. Все модели семейства обучены на корпусе из более чем 140 языков с явной поддержкой русского — это официально заявлено в карточке модели. На практике русская Gemma 4 работает на уровне крупных коммерческих моделей: грамотный текст, правильная орфография и синтаксис, понимание сложных оборотов, корректная работа с русской деловой и научной лексикой.

Тонкая настройка под русский язык имеет смысл только в двух случаях: если нужна узкоспециализированная отраслевая терминология (юридические термины, медицинские диагнозы по МКБ, банковские продукты) или если требуется максимальное качество в специфическом стиле (например, корпоративный стиль конкретной компании). Для большинства бизнес-задач базовая версия Gemma 4 31B дает результат, сопоставимый с GigaChat и YandexGPT, при этом ее можно развернуть локально, без передачи данных провайдеру.

Можно ли использовать Gemma 4 в корпоративном RAG и чем она отличается от других моделей в этой роли?

Можно — и Gemma 4 26B A4B, по сути, является оптимальным выбором для корпоративного RAG в 2026 году. Преимущества: 256K контекст (большие фрагменты документации помещаются целиком), нативная мультимодальность (можно индексировать изображения и сканы), function calling для интеграции с корпоративными системами, низкая стоимость инференса MoE-архитектуры.

В сравнении с альтернативами: Llama 4 Maverick требует значительно больше вычислительных ресурсов, Qwen 3.5 в топовой версии — тоже требует серверной инфраструктуры, российские GigaChat и YandexGPT хороши при API-интеграции, но не работают локально.

Подробно про архитектуру корпоративного RAG, выбор векторных хранилищ, оценку качества и стоимость внедрения — мы разбирали в отдельной статье на Habr (рекомендую читать перед стартом проекта).

Нужна ли регистрация Gemma 4 в реестре Минцифры или сертификация ФСТЭК?

Зависит от организации. Для коммерческого сектора (частного бизнеса, не работающего с государственной тайной или КИИ) — нет: Gemma 4 можно использовать без сертификации, как и любую другую открытую модель. Лицензия Apache 2.0 дает юридическое право на коммерческое использование.

Для государственного сектора и КИИ — да, скорее всего, потребуется. Согласно приказу ФСТЭК №117, вступившему в силу 1 марта 2026 года, ИИ-системы в государственных организациях должны соответствовать определенным требованиям: обязательный контроль достоверности ответов, фильтрация запросов, защита от утечек через промпты. Готовится отдельный закон о суверенных и национальных ИИ-моделях с обязательной сертификацией ФСТЭК и ФСБ.

На практике это означает, что Gemma 4 в чистом виде не получит статус «доверенной» — для использования в государственных учреждениях еЕ нужно либо доработать в соответствии с российскими требованиями и сертифицировать, либо использовать как технологическую базу для разработки сертифицированной отечественной модели. Apache 2.0 допускает оба варианта.

Что с обновлениями? Когда выйдет Gemma 5?

Точных дат Google не называет. Судя по графику релизов — Gemma 1 в феврале 2024 года, Gemma 2 в июне 2024 года, Gemma 3 в марте 2025 года, Gemma 4 в апреле 2026 года, — следующее поколение появится в конце 2026 — начале 2027 года.

Важный момент для долгосрочного планирования: переход с одной версии Gemma на другую не означает переделки всей системы. API и протоколы (вызов функций, системные запросы, формат запросов) совместимы между поколениями, и замена модели обычно выглядит как обновление одного компонента в стеке без перестройки архитектуры, возможно, с небольшой донастройкой промптов.

Поэтому планирование внедрения на 2–3 года вперед — вполне реальная задача: вы выбираете архитектурный подход (локальная Gemma 4 для определенных сценариев), а конкретную модель в дальнейшем сможете обновить с минимальными затратами.

Можно ли использовать Gemma 4 вместе с GigaChat или YandexGPT в одной системе?

Можно, и это распространенный сценарий гибридной архитектуры. Логика такая: критически важные данные (банковская тайна, врачебная тайна, коммерческая тайна) обрабатываются локально на Gemma 4; некритичные публичные запросы (поиск общей информации, типовые задачи) отправляются в облачный API российского провайдера, у которого есть свои сильные стороны — постоянное обновление модели, готовая инфраструктура, локализация на русский язык.

Маршрутизация запросов между моделями осуществляется на уровне приложения: классификатор определяет тип запроса (по степени конфиденциальности данных, сложности задачи, требуемой скорости обработки) и направляет его в нужную модель. Таким образом, компания получает экономию на облачных API в типичных сценариях и конфиденциальность в особо важных случаях без необходимости идти на компромиссы.

Заключение

В целом, пока все. Не знаем, какой вывод из прочитанного сделали вы, а наш вердикт, как бизнес-интегратора, будет не в духе «Gemma 4 — лучшая/худшая модель на рынке», а в более практической плоскости: является ли она надежным фундаментом для корпоративной ИИ-инфраструктуры в российских условиях. И если смотреть именно с этой позиции — ответ скорее «да», но с некоторыми оговорками.

Gemma 4 — это одна из первых открытых моделей, где одновременно совпали четыре критически важных условия для бизнеса: качество, предсказуемая лицензия, возможность локального развертывания и реалистичные требования к инфраструктуре. До этого компаниям приходилось выбирать между двумя крайностями: либо облачные API уровня GPT-4o и Claude с высокими рисками зависимости от поставщика, либо open-source-модели с мощным аппаратным парком и командой исследователей. Gemma 4 эту пропасть существенно сократила.

Для российского бизнеса это особенно важно. В локальном контексте вопрос выбора LLM — это уже не только вопрос качества ответов. Это одновременно вопрос юридической устойчивости, безопасности данных, экономики эксплуатации и технологического суверенитета компании.

Если организация работает с персональными данными, коммерческой тайной, внутренними документами, кодом, финансовой отчетностью или медицинской информацией, то ставка исключительно на внешний API почти неизбежно приводит к ограничениям. Даже если поставщик российский. Облачная модель всегда остается внешним сервисом, который компания арендует на чужих условиях. Это означает зависимость от тарифов, лимитов, политики доступа и регуляторных изменений. Для экспериментальных задач это приемлемо. Для критических бизнес-процессов — уже значительно менее комфортно.

Gemma 4 предлагает другой сценарий: компания получает не сервис, а полноценный технологический актив. Модель можно развернуть внутри собственного контура, интегрировать с внутренними системами, дообучить под отраслевую специфику, встроить в RAG-инфраструктуру, использовать без ограничений по количеству запросов и не зависеть от того, что завтра изменится у OpenAI, Google, Anthropic, Сбера или Яндекса. Для долгосрочной стратегии это принципиально другой уровень контроля.

При этом важно понимать: Gemma 4 — не магическое решение всех задач. Есть классы сценариев, где облачные API пока остаются сильнее. Если компании нужен максимальный reasoning-уровень без ограничений бюджета, сверхдлинный контекст на миллионы токенов, мультимодальность уровня frontier-моделей или минимальное время запуска без собственной инфраструктуры, GPT-4o, Claude или Gemini зачастую окажутся удобнее. Аналогично, если нагрузка небольшая — условные несколько тысяч запросов в день, — локальное развертывание может просто не окупиться экономически.

Кроме того, внедрение локальной модели не отменяет инженерную сложность. Сам факт установки Gemma 4 не создает корпоративный ИИ. Понадобятся: инфраструктура, GPU, MLOps, мониторинг, контроль качества, система прав доступа, поддержка интеграций.

Компании, которые воспринимают open-source LLM как бесплатную замену ChatGPT, обычно быстро сталкиваются с реальностью эксплуатационных затрат. Gemma 4 снижает порог входа, но не отменяет необходимость зрелой инженерной команды.

Тем не менее именно в качестве базовой платформы для корпоративного AI-стека Gemma 4 сегодня выглядит одним из наиболее рациональных вариантов на рынке. Не потому, что она абсолютный лидер по всем бенчмаркам, а потому что она предлагает редкий баланс между качеством модели, стоимостью инфраструктуры, зрелостью экосистемы и независимостью бизнеса от внешнего поставщика.

По сути, вопрос здесь сводится к следующим тезисам:

Если компании нужен «AI как сервис» — быстрее и проще использовать облачные API.
Если необходим собственный управляемый AI-контур, который станет частью инфраструктуры бизнеса на годы вперед, — Gemma 4 является одним из самых сильных кандидатов на роль такого фундамента.

Вот поэтому для российских корпоративных RAG-систем, внутренних AI-платформ и защищенных бизнес-процессов Gemma 4 сегодня выглядит не как экспериментальная open-source-модель, а как вполне зрелая промышленная основа для построения собственной ИИ-инфраструктуры.

А что думаете вы? Уже попробовали Gemma 4 или только собираетесь? Велком в комменты, обсудим!

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

Все публикации подряд на Хабре

Что нового в Gemma 4

Лицензия

«Смесь экспертов» (Mixture-of-Experts)

Гибридное внимание (Hybrid Attention)

Послойные эмбеддинги (Per-Layer Embeddings)

Вызов функций (Function calling)

Режим рассуждений (Thinking mode)

Мультимодальность

Семейство Gemma 4: линейка версий, сценарии

Gemma 4 E2B — мобильная и периферийная модель

Gemma 4 E4B — легкий помощник на ноутбуке

Gemma 4 26B A4B — выбор для корпоративных задач

Gemma 4 31B — флагман для максимального качества

Как выбрать версию Gemma 4 под задачу

Gemma 4 и конкуренты

Сравнительная таблица

Эрудиция и знания

Научный анализ

Программирование

Контекст и длинные документы

Российские API

Какие задачи способна решать Gemma 4

Стоимость запуска Gemma 4: от ноутбука до GPU-сервера

FAQ по Gemma 4

Apache 2.0 — это действительно «без подвохов»? Что говорят юристы крупных компаний?

Gemma 4 «знает» русский язык или нужна доработка?

Можно ли использовать Gemma 4 в корпоративном RAG и чем она отличается от других моделей в этой роли?

Нужна ли регистрация Gemma 4 в реестре Минцифры или сертификация ФСТЭК?

Что с обновлениями? Когда выйдет Gemma 5?

Можно ли использовать Gemma 4 вместе с GigaChat или YandexGPT в одной системе?

Заключение