惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Spread Privacy
Spread Privacy
人人都是产品经理
人人都是产品经理
U
Unit 42
MyScale Blog
MyScale Blog
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
Hugging Face - Blog
Hugging Face - Blog
J
Java Code Geeks
F
Full Disclosure
博客园 - 司徒正美
美团技术团队
博客园 - 叶小钗
L
LINUX DO - 热门话题
Blog — PlanetScale
Blog — PlanetScale
Security Latest
Security Latest
博客园 - 聂微东
量子位
Know Your Adversary
Know Your Adversary
H
Hackread – Cybersecurity News, Data Breaches, AI and More
N
Netflix TechBlog - Medium
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
D
DataBreaches.Net
S
Securelist
Recorded Future
Recorded Future
小众软件
小众软件
月光博客
月光博客
W
WeLiveSecurity
宝玉的分享
宝玉的分享
B
Blog
G
GRAHAM CLULEY
P
Privacy International News Feed
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
C
Cybersecurity and Infrastructure Security Agency CISA
S
SegmentFault 最新的问题
Hacker News: Ask HN
Hacker News: Ask HN
MongoDB | Blog
MongoDB | Blog
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
雷峰网
雷峰网
博客园 - Franky
F
Fortinet All Blogs
T
Troy Hunt's Blog
T
The Blog of Author Tim Ferriss
The Register - Security
The Register - Security
阮一峰的网络日志
阮一峰的网络日志
L
LangChain Blog
H
Hacker News: Front Page
N
News and Events Feed by Topic
Google DeepMind News
Google DeepMind News
Scott Helme
Scott Helme

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Deep Research для бедных поверх Codex
mike_melanin · 2026-06-18 · via Все публикации подряд на Хабре

Простой

4 мин

49

Codex Deep Research Skill

Codex Deep Research Skill

Обычный ответ LLM по сложной теме – часто мусор.

Не потому что модель тупая. Просто за один prompt не получаешь полноты ответа. Это быстрый ответ из головы модели: красиво, складно, иногда даже убедительно. Но если нужно реально разобраться в рынке, технологии, конкурентах, вакансиях, конференциях или любом другом you name it кейсе, почти всегда нужен не ответ, а небольшое исследование.

То есть:

  • разложить тему на направления;

  • сходить в источники;

  • сравнить позиции;

  • вытащить цифры, риски и кейсы;

  • собрать нормальный markdown-отчёт со ссылками.

Поэтому я всё чаще запускаю Deep Research буквально по поводу и без. Для меня это стал дефолтный режим работы со сложными вопросами.

Проблема вот в чём: встроенный Deep Research в ChatGPT и Claude удобный, но не всегда управляемый.

Во-первых, лимиты. Покупать подписку за $100 только ради более частого Deep Research мне пока банально жалко. Плюсом у ChatGPT нет отображения счётчика оставшихся запусков. Про “щедрые” лимиты Claude на 20-баксовой подписке я помолчу.

Во-вторых, непонятно, что происходит под капотом. Иногда ощущение, что он посмотрел 20 источников по теме. Иногда – что перелопатил половину интернета, сжёг миллиард токенов и потратил час на ресёрч. Напрямую управлять шириной и глубиной прогона никак нельзя.

В итоге я решил собрать свой локальный Deep Research через API – на тех сервисах, где у меня уже были доступные кредиты.

Так появился Deep Research Codex – локальный wrapper поверх GPT Researcher, который запускается из Codex как skill.

Сразу дисклеймер: это не аналог Deep Research внутри ChatGPT или Claude. Там, скорее всего, гораздо более сложная система планирования, поиска, ранжирования и проверки источников. Я взял open-source базу – GPT Researcher – поменял внутри то, что мешало моему сценарию, и собрал вокруг него удобный runner.

Что получилось

Workflow такой:

сырой запрос -> prefilter -> подтверждение -> deep research -> markdown report

Я пишу в Codex что-то вроде:

Сделай research по AI-агентам в клиентской поддержке: ROI, риски, реальные кейсы, что можно показать B2B-клиенту.

Дальше skill сначала запускает prefilter. Он не лезет сразу в web research, а превращает мой сырой запрос в нормальный brief:

  • тема;

  • цель;

  • контекст;

  • ключевые вопросы;

  • scope;

  • web query;

  • формат результата.

Я вижу, как система поняла задачу, и только потом подтверждаю запуск.

Это главное отличие от магической кнопки: я могу остановиться до дорогого или кривого прогона.

Как работает мой Deep Research

Внутри используется GPT Researcher.

В дефолтном профиле сейчас:

breadth = 4
depth = 2
concurrency = 4
Deep Research каскад

Deep Research каскад

Если по-человечески:

  • breadth – насколько широко раскладывать тему;

  • depth – насколько глубоко уходить по веткам;

  • concurrency – сколько задач выполнять параллельно.

Например, тема “AI-агенты в поддержке” может распасться на такие ветки:

1. Экономика поддержки
2. Качество ответов
3. Интеграции
4. Риски

Потом внутри каждой ветки появляются уточняющие вопросы, источники и follow-up темы. Сначала система идёт широко, потом глубже.

Для меня смысл именно в этом: не просить LLM “ну подумай получше”, а запускать воспроизводимый research-процесс с понятными параметрами.

Почему Tavily и Bedrock

Никакой религии тут нет. Я собрал первую рабочую версию на тех API, где у меня уже были credits и где было проще быстро поднять пайплайн.

Для web search используется Tavily. Это search API, который удобно использовать в agentic и RAG-сценариях.

У Tavily есть бесплатный старт: можно зарегистрироваться без карты и получить бесплатные API credits на месяц. Для личных экспериментов и небольших research-прогонов этого обычно хватает.

Для LLM-вызовов я использую AWS Bedrock и Claude через Bedrock. Не потому, что Bedrock обязателен, а потому что у меня там были бесплатные лимиты/credits. Поэтому первый wrapper получился Bedrock-first.

В принципе, это можно переделать под другие API. GPT Researcher уже поддерживает разных LLM-провайдеров, а search API тоже можно заменить. Просто Tavily + Bedrock – это была самая быстрая связка, которая у меня была под рукой.

Что нужно для запуска

Сейчас мой wrapper рассчитан на:

  • Tavily для web search;

  • AWS Bedrock;

  • Claude через Bedrock;

  • Bedrock embeddings;

  • запуск из shell или Codex.

Клонируем репозиторий:

git clone https://github.com/mikemelanin/deep-research-codex.git
cd deep-research-codex

Создаём окружение и ставим зависимости:

python3 -m venv .venv
./.venv/bin/pip install -r gpt-researcher/requirements.txt boto3

Создаём локальный конфиг:

cp .env.example .env

В .env нужно добавить Tavily API key и настройки AWS Bedrock.

Установка Codex skill

Команду нужно выполнять из корня репозитория deep-research-codex, где есть папка skills/research.

mkdir -p ~/.codex/skills
cp -R skills/research ~/.codex/skills/research

Что здесь происходит:

  • skills/research – папка skill внутри текущего репозитория;

  • ~/.codex/skills/research – место, куда Codex ожидает пользовательские skills;

  • cp -R копирует всю папку research вместе с файлами внутри.

Если запускать команду не из корня репозитория, она не найдёт skills/research.

Если проект лежит не в ~/deep-research-codex, можно указать путь явно:

export DEEP_RESEARCH_CODEX_HOME="/path/to/deep-research-codex"

После этого в Codex можно писать обычным языком:

Сделай research по теме ...
Собери markdown-отчёт с источниками ...
Сделай deep research на русском ...

Запуск без Codex

Обычный запуск:

./research.sh "Тема исследования"

Русский отчёт:

./research.sh --ru "Тема исследования"

Только prefilter, без web research:

./research.sh --prefilter-only "Тема исследования"

Запуск из файла:

./research.sh --file "./context.md"

Продолжить из сохранённого prefilter:

./research.sh --from-prefilter "./logs/YYYYMMDD-HHMMSS-prefilter.json"

Что в этом полезного

Для меня главное – не “сделать ещё один Deep Research”, а сделать его более ручным и предсказуемым.

Я могу:

  • увидеть, как система поняла задачу;

  • остановиться до запуска web research;

  • управлять шириной и глубиной;

  • гонять research чаще, потому что использую доступные API;

  • получать итог сразу в markdown;

  • запускать всё из Codex рядом с другими агентными задачами.

Это не идеальный open-source Deep Research. Это рабочий инструмент под мой процесс: Codex как управляющий слой, GPT Researcher как research engine, Tavily как web search, Bedrock как текущий LLM backend.

Обычный LLM-ответ хорош для быстрых вопросов. Но если тема сложная, мне всё чаще нужен не ответ, а research-процесс.

И вот это я себе и собрал. Мой тг.