惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Spread Privacy
Spread Privacy
大猫的无限游戏
大猫的无限游戏
爱范儿
爱范儿
小众软件
小众软件
腾讯CDC
博客园 - 司徒正美
T
Tailwind CSS Blog
人人都是产品经理
人人都是产品经理
The Cloudflare Blog
雷峰网
雷峰网
V
Visual Studio Blog
C
Cyber Attacks, Cyber Crime and Cyber Security
Cyberwarzone
Cyberwarzone
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
P
Privacy International News Feed
博客园_首页
Scott Helme
Scott Helme
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
G
GRAHAM CLULEY
Apple Machine Learning Research
Apple Machine Learning Research
T
Threat Research - Cisco Blogs
罗磊的独立博客
T
Threatpost
P
Palo Alto Networks Blog
U
Unit 42
T
The Blog of Author Tim Ferriss
AWS News Blog
AWS News Blog
MongoDB | Blog
MongoDB | Blog
V
Vulnerabilities – Threatpost
S
Schneier on Security
K
Kaspersky official blog
B
Blog
T
Tenable Blog
Blog — PlanetScale
Blog — PlanetScale
Security Latest
Security Latest
C
Cisco Blogs
aimingoo的专栏
aimingoo的专栏
The GitHub Blog
The GitHub Blog
N
Netflix TechBlog - Medium
Simon Willison's Weblog
Simon Willison's Weblog
Y
Y Combinator Blog
L
LINUX DO - 热门话题
C
Check Point Blog
F
Fortinet All Blogs
C
CXSECURITY Database RSS Feed - CXSecurity.com
I
InfoQ
B
Blog RSS Feed
Cloudbric
Cloudbric
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
The Hacker News
The Hacker News

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Кто решает судьбу вашего проекта? Разбираем заинтересованные стороны. BABOK #1 Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Рефлексивный бот с долгой памятью: почему универсальный LLM-чат тут не работает, и как я переписал онбординг по данным
Yehor Shustyk · 2026-06-15 · via Все публикации подряд на Хабре

Средний

4 мин

386

Я какое-то время использовал ChatGPT и Claude как собеседника для рефлексии — выгрузить, что в голове, посмотреть на себя со стороны. С самим разговором у них всё отлично. Проблема в другом: они со временем теряют память в целом управлять этим не сильно удобно из-за раздутого контекста.

Для разовой задачи это норм. Но рефлексия — это процесс во времени: ценность не в одном разговоре, а в том, что собеседник помнит, к чему ты возвращаешься из недели в неделю, и замечает паттерны, которые тебе самому не видны. Универсальный чат каждый раз начинает с чистого листа. Контекст можно вставлять руками, но это ручная работа, которую никто не делает.

Так я начал делать Telegram-бота, у которого память — не фича, а суть. И в процессе наступил на показательные грабли с онбордингом. Об этом и статья — без маркетинга, только инженерия и то, что я понял.

Часть 1. Память — это весь продукт

Центральная сущность — memory card: JSON на пользователя, который накапливается из разговоров. Не лог сообщений (он тоже есть), а извлечённая модель человека: повторяющиеся напряжения, паттерны поведения и мышления, ограничивающие убеждения, «зона роста», цель, пол/возраст.

Наполняется в два темпа:

  • Фоновая экстракция на старте (пол/возраст из первых сообщений).

  • Еженедельный разбор (по воскресеньям) и мид-вик обновление, когда накопилось достаточно записей: отдельный промпт прогоняет недельный контекст и обновляет карту.

Каждый ответ бот собирает richCtx — язык, профиль, точку А (старт), цель, последние записи, недавние саммари — и кладёт в системный промпт. Это и даёт continuity: бот не «вспоминает», он держит модель тебя в контексте постоянно.

Важный замер: richCtx у активных юзеров — медиана ~113 токенов, максимум ~1.5к. То есть «память» дёшева; дорогая часть — извлечение карты (читает неделю записей), но оно офлайновое.

Часть 2. Онбординг: главная ошибка

Первая версия онбординга была «по учебнику»:

  1. Выбери режим: Цель или Дневник.

  2. Расскажи, где ты сейчас (точка А).

  3. Расскажи, к чему хочешь прийти (точка Б).

Структурно, аккуратно — и текло ровно здесь. Я просил незнакомого человека сформулировать цель жизни за 30 секунд. Это просьба о структуре до того, как он что-либо почувствовал. Люди замерзают.

Воронка подтвердила: главная утечка — не в глубине, а на первом экране. За неделю 4 из 5 новых застряли на «выбери режим / назови цель». При этом свободный разговор составлял ~47% всей активности — люди приходили говорить, а я встречал их анкетой. Продукт (рефлексивный диалог) воевал с онбордингом (форма сбора данных).

Переписал на chat-first — это тёплый вопрос «как ты сейчас? что не отпускает?». Всё остальное собирается из разговора:

  • Точка А = первое честное сообщение, молча, без вопроса «сформулируй».

  • Режим переформулирован из абстрактного «Цель vs Дневник» в конкретную пользу: «хочешь, буду присылать короткий вопрос утром или вечером?» — и спрашивается в конце прогрева, после нескольких реплик.

  • Цель (точка Б) спрашивается явно только если человек выбрал режим с напоминаниями, и вплетённо.

Технически это конечный автомат на стейтах в conversation_state + флаг onb_optin в memory_card, который помечает «юзер ещё в интро». Главный принцип, выстраданный на данных: один вопрос за раз, никогда не складывать два «ответь мне» подряд (первая версия умудрялась в одном ответе и отразить, и спросить цель — человек терял нить).

Пара нюансов, которые всплыли:

  • Язык определяю по Telegram. Англоязычные отваливались сильнее — добавил одноэкранный пикер языка для неуверенного случая (ловит тех, у кого телефон на английском, а говорить хочется по-русски).

  • «Призраки» — получили приветствие и притихли. Их нельзя через неделю догонять текстом «давно не писал» (они не начинали). Отдельная ветка в крон-свипе: мягкое повторение опенера через несколько часов, пока бот в памяти.

Часть 3. Инженерные решения

Абстракция провайдера. Весь LLM-трафик идёт через одну функцию askClaude(systemPrompt, userMessage, ctx, opts). Внутри — рантайм-свитч: по умолчанию проксирует в Gemini-бэкенд, AI_PROVIDER=anthropic возвращает на Claude. Один контракт, бэкенды взаимозаменяемы — переключение провайдера это одна переменная окружения, а не рефакторинг 20 call-site'ов.

Тиры моделей под задачу. Не одна модель на всё:

  • Живой /chat — на быстрой gemini-3.5-flash. Юзер ждёт каждый ответ в реальном времени, тут важнее скорость и живость.

  • Офлайн-синтез (инсайты, недельные саммари, извлечение memory card) — на gemini-2.5-pro с полным thinking-бюджетом. Никто не ждёт, можно думать глубоко.

Урок про латентность: я сначала посадил чат на 2.5-pro ради глубины — и получил лаг, потому что это thinking-модель: на каждый ответ она сначала генерит тысячи токенов «размышлений», и только потом печатает. Для интерактивного чата это смерть. Вернул на flash — стало и быстрее, и ~в 4 раза дешевле, а глубину оставил там, где её никто не ждёт.

Почему не локальная модель. Считал: VPS без GPU → 7B на CPU = 15–40 сек на ответ (хуже, чем API). GPU-сервер = сотни долларов в месяц против ~$7 за весь Gemini. Самохост окупается на миллионах вызовов или когда приватность становится требованием продукта — у меня пока ни того, ни другого.

Часть 4. Что поймал ESLint

Отдельный сюжет. Я завёл ESLint (в pre-push и CI) — и он сразу нашёл четыре молча сломанные фичи: отсутствующие импорты, из-за которых ветки падали с ReferenceError, а grammy глушил ошибку, так что фича просто молча не работала. Среди них — команда /insights, которая падала у всех (это объясняло ноль её использований в аналитике). Мораль банальна, но я её проживал: на динамическом языке статический анализ ловит то, что тесты не покрывают, и это окупается с первого прогона.

Уроки, которые усвоил

  1. Если строишь поверх LLM что-то про время и отношения с пользователем — память важнее модели. Универсальный чат проигрывает не качеством ответа, а отсутствием continuity.

  2. Не проси структуру до того, как человек что-то почувствовал. Сначала разговор — структуру достанешь из него.

  3. Разные тиры модели под разные задачи. Быстрая на интерактив, тяжёлая на офлайн. Thinking-модель на real-time chat — антипаттерн.

  4. Абстрагируй провайдера за одной функцией с первого дня. Рынок моделей меняется каждый месяц.

  5. ESLint на JS-проекте — не формальность. Ловит молча сломанное.

Выборка пока маленькая, трубить о победе рано. Но направление однозначное: кто заходит в разговор — проходит без заморозки на бланке. И главное, что я вынес: онбординг — это не сбор данных, это первое касание. Сначала дай человеку почувствовать, что его слышат, — аналитику достанешь потом. Если желаете глянуть что вышло и прожарить найдите в тг@Wiseinsights_bot