惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Engineering at Meta
Engineering at Meta
Help Net Security
Help Net Security
Blog — PlanetScale
Blog — PlanetScale
B
Blog RSS Feed
Recent Announcements
Recent Announcements
云风的 BLOG
云风的 BLOG
P
Proofpoint News Feed
阮一峰的网络日志
阮一峰的网络日志
MyScale Blog
MyScale Blog
WordPress大学
WordPress大学
M
MIT News - Artificial intelligence
L
LangChain Blog
J
Java Code Geeks
罗磊的独立博客
雷峰网
雷峰网
Microsoft Security Blog
Microsoft Security Blog
Microsoft Azure Blog
Microsoft Azure Blog
H
Help Net Security
Martin Fowler
Martin Fowler
Google DeepMind News
Google DeepMind News
博客园 - 聂微东
F
Full Disclosure
博客园 - 叶小钗
爱范儿
爱范儿
人人都是产品经理
人人都是产品经理
博客园 - 司徒正美
Hugging Face - Blog
Hugging Face - Blog
量子位
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
小众软件
小众软件
D
Docker
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
V
Visual Studio Blog
Last Week in AI
Last Week in AI
The Cloudflare Blog
MongoDB | Blog
MongoDB | Blog
T
The Blog of Author Tim Ferriss
H
Hackread – Cybersecurity News, Data Breaches, AI and More
V
V2EX
月光博客
月光博客
T
Tailwind CSS Blog
Vercel News
Vercel News
T
Threatpost
IT之家
IT之家
Simon Willison's Weblog
Simon Willison's Weblog
C
CXSECURITY Database RSS Feed - CXSecurity.com
GbyAI
GbyAI
NISL@THU
NISL@THU
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
博客园_首页

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Как мы собрали LLM-шлюз для России: готовый LiteLLM на data-plane, свой биллинг на Go и n8n
Роман · 2026-06-15 · via Все публикации подряд на Хабре

Простой

4 мин

126

Год назад доступ к зарубежным LLM из России превратился в квест. OpenAI и Anthropic не принимают российские карты и блокируют запросы по гео. Обходные пути — VPN, иностранная карта, прокладка через знакомых за рубежом — годятся для пет-проекта, но не для продакшена, где нужен стабильный аккаунт, предсказуемый счёт и возможность объяснить бухгалтерии, за что платим.

Мы сделали apiglue — шлюз, который закрывает эту боль: один OpenAI-совместимый endpoint, за которым прячутся десятки провайдеров, оплата рублёвой картой и баланс в рублях. А заодно — управляемый хостинг n8n, чтобы не только дёргать модели через API, но и собирать на них автоматизации без своего сервера.

Ниже — как это устроено внутри и какие решения оказались неочевидными. Без маркетинга: где замерили — пишу замеры, где спроектировали на запас — так и говорю.

Почему не стали писать шлюз с нуля

Первый инстинкт инженера — написать свой прокси. Маршрутизация, пулы ключей, ретраи, учёт токенов, стриминг — задача понятная. Мы даже начали: в репозитории до сих пор лежит gateway/ на Go с тестами под -race. Но довольно быстро стало ясно, что мы переписываем то, что уже есть в опенсорсе и обкатано на чужом проде.

Этим «уже есть» оказался LiteLLM — прокси на Python с поддержкой сотни с лишним провайдеров, виртуальными ключами, бюджетами, учётом расходов и метриками для Prometheus. Он умеет то, на что у нас ушли бы месяцы: единый формат запроса для OpenAI, Anthropic, Google, DeepSeek, OpenRouter и прочих, балансировку внутри пула ключей, cooldown при rate-limit и автоматический failover.

Отсюда выросла вся архитектура: LiteLLM остаётся как есть на data-plane, а control-plane на Go мы пишем сверху. Собственный gateway оставили как референс и запасной вариант, но горячий путь запросов через него не идёт.

Гибридная архитектура: кто за что отвечает

Получилось два чётко разделённых слоя.

Гибридная архитектура: data-plane (LiteLLM) и control-plane (Go)

Архитектура

Архитектура

Data-plane (LiteLLM) обрабатывает весь трафик /v1/*: chat-completions, embeddings, стриминг. Внутри — пул провайдерских ключей, балансировка, failover, учёт расхода в долларах. Control-plane в этот путь не вмешивается, поэтому латентность шлюза не зависит от того, чем заняты кабинет и биллинг.

Control-plane (Go, в основном stdlib) — это всё остальное: регистрация и сессии, ключи пользователя, рублёвый баланс, пополнение через ЮKassa, кабинет, оркестрация n8n. LiteLLM он дёргает через admin-API: заводит виртуальные ключи (/key/generate), добавляет модели (/model/new), забирает расход (/spend/logs).

Почему это удобно: слои масштабируются независимо. LiteLLM-реплики делят состояние через Redis, control-plane stateless. И если завтра захочется заменить LiteLLM на что-то другое — контракт между слоями узкий и понятный.

Nocode Cloud: n8n в один клик

Вторая половина продукта — управляемый хостинг n8n. Пользователь в кабинете нажимает «создать сервер», выбирает тариф (basic — от 1900 ₽/мес) и через несколько минут получает свой изолированный n8n на поддомене вида n8n-true-carp.nc.домен. Дальше — рекуррентное списание с того же рублёвого баланса.

Под капотом — Kubernetes. Каждый инстанс — это Deployment + PVC + Service + Ingress в собственном namespace, а раскладывает всё это наш Go-оркестратор через client-go. На k8s мы пошли осознанно: планировщик, рестарты упавших Pod'ов, масштабирование и сетевые политики кластер берёт на себя — нам не нужно городить это самим поверх голого демона.

Reconcile-петля вместо императивных вызовов. Оркестратор не делает apply прямо из обработчиков API. Control-plane пишет в Postgres желаемое состояние инстанса, а orchestrator в цикле сверяет его с фактическим состоянием кластера (через client-go, Server-Side Apply) и приводит одно к другому — создаёт манифесты, масштабирует Deployment в ноль и обратно, удаляет. По сути это маленький контроллер поверх собственного стейта в БД. Отсюда восстановляемость (оркестратор упал и поднялся — досверит из Postgres) и устойчивость к гонкам (несколько реплик под leader-lock не подерутся за один инстанс), а сам Kubernetes ещё и держит Pod'ы живыми, пока мы спим.

Изоляция. Каждому инстансу — свой namespace, NetworkPolicy с запретом на чужой трафик и свой PersistentVolumeClaim. Инстансы не видят друг друга по сети и не делят данные. Секрет N8N_ENCRYPTION_KEY шифруется AES-256-GCM и лежит в нашей БД только в виде шифротекста; в кластер он кладётся как Secret и расшифровывается лишь в момент применения манифеста, чтобы попасть в env Pod'а.

Шлюз доступа до онбординга. Свежий n8n до первого /setup открыт — кто первый зашёл, тот и завёл админа. Чтобы посторонний не «угнал» чужой инстанс по угаданному URL, перед инстансами стоит access-proxy с ext-authz (Ingress дергает его до того, как пустить запрос на Pod): до завершения setup он пускает только владельца. Владелец опознаётся по HMAC-токену в cookie, который проверяется субзапросом в control-plane. Встроить проверку в сам образ n8n нельзя — он неизменяемый, поэтому логика живёт в прокси.

Что дальше

Ближайшее — встроенная observability LLM-трафика на базе Langfuse: каждый пользователь видит свои запросы, токены, стоимость и латентность без единой строчки кода у себя, потому что трафик и так идёт через виртуальный ключ. Спека готова, реализация на очереди.

Попробовать

apiglue запущен, идёт набор пользователей. Заводите аккаунт на apiglue.ru, пополняете баланс рублёвой картой, меняете в своём коде base URL и ключ — и дальше работаете с моделями как с обычным OpenAI API. Нужна автоматизация — поднимаете n8n в пару кликов там же.

Вопросы по архитектуре и решениям — задавайте в комментариях, отвечаем.