惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

K
Kaspersky official blog
P
Privacy International News Feed
Simon Willison's Weblog
Simon Willison's Weblog
V
Vulnerabilities – Threatpost
Know Your Adversary
Know Your Adversary
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
P
Palo Alto Networks Blog
NISL@THU
NISL@THU
C
Cybersecurity and Infrastructure Security Agency CISA
S
Securelist
Scott Helme
Scott Helme
T
Threat Research - Cisco Blogs
L
LINUX DO - 热门话题
Google Online Security Blog
Google Online Security Blog
G
GRAHAM CLULEY
Project Zero
Project Zero
P
Privacy & Cybersecurity Law Blog
I
Intezer
T
Threatpost
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
Y
Y Combinator Blog
大猫的无限游戏
大猫的无限游戏
S
Schneier on Security
WordPress大学
WordPress大学
P
Proofpoint News Feed
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
博客园 - Franky
小众软件
小众软件
S
Security Affairs
人人都是产品经理
人人都是产品经理
量子位
Help Net Security
Help Net Security
博客园 - 三生石上(FineUI控件)
V
Visual Studio Blog
PCI Perspectives
PCI Perspectives
雷峰网
雷峰网
A
Arctic Wolf
Apple Machine Learning Research
Apple Machine Learning Research
罗磊的独立博客
博客园 - 聂微东
H
Hacker News: Front Page
Jina AI
Jina AI
博客园 - 叶小钗
C
CXSECURITY Database RSS Feed - CXSecurity.com
L
LINUX DO - 最新话题
Latest news
Latest news
The Last Watchdog
The Last Watchdog
W
WeLiveSecurity
酷 壳 – CoolShell
酷 壳 – CoolShell

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Кто решает судьбу вашего проекта? Разбираем заинтересованные стороны. BABOK #1 Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как Фалькон Тех меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Когда компании пора строить свой LLM-кластер, а не пользоваться внешними API
Егор Мелкозёров · 2026-06-10 · via Все публикации подряд на Хабре

4 мин

3.4K

На раннем этапе внедрения LLM в компании выглядят как быстрый выигрыш: подключается внешний API (например, ChatGPT), ускоряется работа с текстами, автоматизируются ответы, появляются первые сценарии аналитики и агентных пайплайнов через Make или n8n.

До определённого масштаба этого достаточно.

По мере роста компании LLM перестаёт быть вспомогательным инструментом и становится частью операционных процессов. В системе появляются чувствительные данные, требования к контролю доступа, необходимость стабильной работы, интеграции во внутренние сервисы и вопросы экономики при больших объёмах запросов.

В этот момент модель «внешний API по подписке» начинает ограничивать развитие.

On-prem LLM как архитектурный слой

On-premise LLM — это модель и инфраструктура, развёрнутые внутри контролируемого контура компании: собственный дата-центр, colocation или private cloud.

Это принципиально отличается от использования внешнего API.

On-prem модель даёт:

  • контроль над данными и их размещением;

  • контроль над доступами, ролями и сценариями использования;

  • возможность встроить LLM в процессы как внутренний сервис, а не как внешний инструмент.

Речь идёт не о «переносе ChatGPT внутрь», а о построении AI-платформы как части корпоративной архитектуры.

Когда внешний LLM перестаёт работать

Переход к on-prem не происходит «по желанию». Обычно это реакция на конкретные ограничения.

1. Работа с чувствительными данными

Как только в LLM начинают попадать внутренние документы, клиентские данные, операционные показатели, возникает вопрос контроля.

Для внешних API это означает:

  • ограничения со стороны security и legal;

  • невозможность использовать модель в ряде процессов;

  • необходимость ручных обходных решений.

On-prem снимает этот блок: данные остаются внутри периметра, что ускоряет внедрение AI в процессы.

2. LLM становится частью системы

Следующий этап — интеграция модели в продукты и внутренние инструменты:

  • роли и уровни доступа;

  • интеграции с внутренними системами;

  • работа внутри интерфейсов сотрудников;

  • возврат результата обратно в бизнес-системы.

В такой архитектуре важно, чтобы данные не уходили во внешние сервисы.

On-prem даёт:

  • контроль над доступами и источниками данных;

  • возможность логирования и аудита;

  • предсказуемое поведение модели в рамках заданных сценариев.

3. Рост объёмов и экономика

На старте API-модель выглядит оптимальной: нет инфраструктуры, нет капитальных затрат.

На масштабе ситуация меняется:

  • расходы на токены могут достигать десятков тысяч долларов;

  • бюджет становится менее предсказуемым;

  • стоимость каждого нового сценария зависит от внешнего тарифа.

Собственная инфраструктура в этом случае даёт управляемую экономику и предсказуемость затрат.

Кому подходит on-prem LLM

On-prem решения обычно появляются там, где LLM становится частью операционной системы бизнеса:

  • регулируемые отрасли с требованиями комплаенса;

  • компании с большими объёмами внутренних данных;

  • контакт-центры и массовый сервис;

  • организации с несколькими продуктами и командами;

  • компании с прогнозируемым ростом нагрузки.

Кейс: LLM-платформа для телеком-компании (MENA)

В проекте для телеком-компании из региона MENA задача формулировалась не как «развернуть кластер», а как построить платформу для GenAI внутри корпоративного периметра.

Цель — создать контур, в котором разные команды могут:

  • запускать обучение и инференс;

  • работать с данными;

  • развивать AI-сценарии без разрозненных решений.

Реализация была разбита на фазы.

Основные этапы

  • фиксация целей и требований на уровне бизнес-процессов;

  • проектирование контура: вычисления, данные, безопасность, эксплуатация;

  • развёртывание платформы в периметре компании;

  • интеграции с внутренними системами;

  • организация хранения и структурирование данных;

  • настройка метрик, логов и дашбордов;

  • тестирование сценариев обучения и инференса под нагрузкой;

  • передача документации и выстраивание эксплуатации.

Техническая реализация

Фазность и вычислительные ресурсы

Phase 1:

  • Kubernetes развёрнут на 2 DGX + 2 management nodes

  • 16 GPU A100 (2 compute-ноды по 8× A100)

Phase 2:

  • расширение worker-слоя до 3× DGX A100 (DGX01, DGX02, DGX03)

Данные и хранилище

  • Lustre-backed DDN storage

  • общий путь /scratch для датасетов, чекпоинтов и артефактов

  • объём: 100 TB shared storage

Наблюдаемость

  • Prometheus + Grafana (метрики, GPU, ноды)

  • централизованные логи: OpenSearch

Тестирование

Distributed training:

  • сценарий: 2 ноды × 4 GPU

  • объём данных: 20 GB → ~10 GB после препроцессинга

  • job завершён успешно

Инференс:

  • модель: Llama-3-3-70B-Instruct

  • нагрузка: 100–200 запросов

  • throughput: 300–700 tok/s

  • контроль: TTFT / TPOT / ITL

Что даёт такая платформа

После развёртывания компания получает не отдельный сервис, а базу для развития AI-функций.

Типовые направления:

1. Внутренние AI-ассистенты

Ассистенты для техподдержки, продаж, операционных и юридических команд с доступом к внутренним знаниям.

2. Контакт-центр

  • подсказки операторам

  • суммаризация диалогов

  • классификация обращений

  • ускорение обработки тикетов

3. RAG и корпоративный поиск

Единая точка доступа к документам и знаниям:
запрос → ответ с источниками.

4. Доменная адаптация моделей

Донастройка под терминологию, продукты и типовые обращения компании.

5. Масштабирование

  • добавление моделей

  • рост нагрузки

  • расширение compute и storage без перестройки архитектуры

6. Регулярный продакшн-цикл

  • тестирование

  • мониторинг

  • регресс-прогоны

  • контроль качества

Результат на уровне бизнеса

On-prem LLM-платформа даёт три ключевых эффекта:

  • новые AI-сценарии добавляются итерациями без пересборки инфраструктуры (предсказуемый time-to-value);

  • появляется прозрачность системы: нагрузка, узкие места, причины деградации;

  • расходы становятся управляемыми при росте использования.

Вывод

Внешние LLM-API эффективны на этапе экспериментов и первых сценариев.

Когда AI становится частью процессов, появляются требования к контролю данных, интеграциям, стабильности и экономике. В этот момент возникает необходимость в собственной инфраструктуре.

On-prem LLM — это не альтернатива API, а следующий этап развития: переход от использования модели как инструмента к построению AI как системного слоя внутри компании.