惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

S
Security Archives - TechRepublic
H
Hackread – Cybersecurity News, Data Breaches, AI and More
博客园_首页
爱范儿
爱范儿
腾讯CDC
Last Week in AI
Last Week in AI
雷峰网
雷峰网
C
CXSECURITY Database RSS Feed - CXSecurity.com
C
CERT Recently Published Vulnerability Notes
罗磊的独立博客
Security Latest
Security Latest
Simon Willison's Weblog
Simon Willison's Weblog
S
Schneier on Security
阮一峰的网络日志
阮一峰的网络日志
A
Arctic Wolf
T
The Exploit Database - CXSecurity.com
L
Lohrmann on Cybersecurity
The Register - Security
The Register - Security
Project Zero
Project Zero
B
Blog
L
LINUX DO - 最新话题
D
DataBreaches.Net
Jina AI
Jina AI
L
LangChain Blog
I
Intezer
Scott Helme
Scott Helme
IT之家
IT之家
P
Palo Alto Networks Blog
人人都是产品经理
人人都是产品经理
博客园 - 叶小钗
GbyAI
GbyAI
美团技术团队
Y
Y Combinator Blog
T
Troy Hunt's Blog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
P
Privacy & Cybersecurity Law Blog
J
Java Code Geeks
Engineering at Meta
Engineering at Meta
Cyberwarzone
Cyberwarzone
博客园 - Franky
PCI Perspectives
PCI Perspectives
The Last Watchdog
The Last Watchdog
Spread Privacy
Spread Privacy
有赞技术团队
有赞技术团队
H
Help Net Security
博客园 - 聂微东
Google DeepMind News
Google DeepMind News
月光博客
月光博客
P
Proofpoint News Feed

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Кто решает судьбу вашего проекта? Разбираем заинтересованные стороны. BABOK #1 Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Когда таймлайн сам рисует кадры: встроенный ИИ‑генератор в MultiTrack
Sham07 · 2026-06-14 · via Все публикации подряд на Хабре

В прошлой статье я рассказывал, как собрал мобильный видеоредактор с мультитреком, кейфреймами и ИИ‑ассистентом, который монтирует по промпту. Тогда ассистент умел резать, двигать, накладывать эффекты — но создавать картинки и видео приходилось где‑то сбоку: сгенерировал, скачал, импортировал, подогнал под проект.

Это раздражало. Монтаж — это поток. Любая лишняя вкладка в браузере — как пауза посреди джазовой импровизации.

Поэтому в MultiTrack появился встроенный ИИ‑генератор — отдельная панель «AI Generation» на базе Higgsfield. Не заглушка «попробуйте нейросеть», а полноценный цикл: промпт → генерация → скачивание → Import to Project → клип сразу в библиотеке и на таймлайне. Без выхода из редактора.

Зачем генератор внутри монтажки, а не в отдельном приложении

Профессиональный монтаж — это не «сделать один красивый кадр». Это собрать сцену из кусков: исходник, титр, цветовой фон, B‑roll, переход, звук. Генеративный ИИ сегодня закрывает дырки, которых в исходниках нет: нет нужного плана — нарисуй; нужен короткий establishing shot — оживи статику.

Раньше цепочка выглядела так:

промпт в веб‑сервисе → ожидание → скачивание → Files → импорт в редактор → подгонка длительности

Теперь:

промпт в MultiTrack → генерация → Import to Project → Track 1, готово

Разница не в количестве кликов — в сохранении контекста. Вы остаётесь в том же проекте, с тем же курсором, с теми же треками. Сгенерированный клип называется generated_N и ведёт себя как обычный медиаклип: его можно резать, ускорять через TimeWarp, вешать эффекты, анимировать transform.

Два режима: Image и Video

Панель разделена на вкладки Image и Video. Это не косметика — у каждого режима свой набор моделей и свой сценарий работы.

Text → Image

Для картинок доступны две семейства моделей:

Модель

Что умеет

Параметры

Reve

Быстрый text-to-image

промпт, aspect ratio

Soul (Higgsfield)

Фотореализм Higgsfield

промпт, aspect ratio, resolution (720p / 1080p / 2K)

Соотношения сторон: 16:9, 9:16, 1:1, 4:3, 3:4 — сразу под горизонтальный монтаж, Reels или квадрат.

Скриншот 1 — генерация в процессе. Модель Reve, промпт на русском (с опечатками — нейросеть всё равно поняла), прогресс скачивания 50%, подсказка «обычно 1–3 минуты»:

Генерация изображения: промпт, прогресс скачивания

Генерация изображения: промпт, прогресс скачивания

Скриншот 2 — результат. Уолтер в жёлтом костюме, Джесси, лаборатория — промпт отработан буквально. Кнопка Import to Project — следующий шаг одним тапом:

Сгенерированное изображение, кнопка Import to Project

Сгенерированное изображение, кнопка Import to Project

Да, тестовый промпт про «Во все тяжкие» — чисто для демо. Но он хорошо показывает главное: русский промпт без перевода, интерфейс на английском, мозги — где угодно.

Image → Video

Видео здесь не «из воздуха» одной кнопкой — это оживление картинки. Берёте source image (только что сгенерированную или любую из проекта), описываете движение промптом, выбираете длительность.

Модели:

Модель

Особенности

DoP

Higgsfield image-to-video, 5 или 10 секунд

Kling 2.1 Pro

image-to-video, высокое качество

Seedance 1.0 Pro

ByteDance image-to-video

Скриншот 3 — цепочка image→video: та же сцена с лабораторией как source, промпт «Уолтер махает рукой, Джесси подходит, оба смотрят в камеру», модель DoP, 5 секунд, скачивание 34%:

Image-to-video: source image, промпт движения, прогресс

Image-to-video: source image, промпт движения, прогресс

Скриншот 4 — готовый ролик в превью. Персонажи ожили, сцена кинематографичная. Снова Import to Project:

Сгенерированное видео 5 секунд

Сгенерированное видео 5 секунд

Получается классический двухшаговый пайплайн прямо в редакторе: сначала кадр, потом движение. Без сторонних сервисов и без ручного перетаскивания файлов.

На таймлайне — как обычные клипы

Скриншот 5 — финал: оба ассета в проекте «тест», Full HD 1080p / 30 fps:

  • Track 1 — generated_3 (иконка изображения, 05:00)

  • Track 2 — generated_4 (иконка видео, 05:11)

Таймлайн с generated_3 и generated_4 на разных треках

Таймлайн с generated_3 и generated_4 на разных треках

Сгенерированное не «магический слой» — это обычные клипы в библиотеке. Дальше — fade, color, effects, warp, всё что уже есть в MultiTrack.

Техническая кухня (кратко, для любопытных)

Архитектура сознательно разделена на слои:

  1. UI — VideoGenerationScreen: выбор модели, промпт, прогресс, превью, импорт.

  2. Контроллер сессии — VideoGenerationController: состояние фазы (idle → generating → ready), отмена, прогресс скачивания в байтах.

  3. Higgsfield API — HiggsfieldGenerationService: постановка задачи, polling, скачивание во временный файл.

  4. Импорт — VideoGenerationImportService: копия в persistent storage, probe видео (длительность, ориентация), клип в библиотеку.

  5. Мост для ИИ‑ассистента — AiGenerationToolService: та же логика headless, команда generate_media.

Каталог моделей — HiggsfieldModelCatalog — curated-список с дефолтами (aspect ratio 16:9, Soul 720p, DoP 5 сек). API Key ID и Secret пользователь вводит в настройках; в панели есть «How to top up balance» с подсказками для пополнения баланса Higgsfield, в том числе для РФ.

Генерация стриминговая по смыслу, но не по кадрам: сначала облако рисует, потом приложение качает готовый файл с прогресс-баром (как на скриншотах — «1.3 MB / 2.5 MB»). Временные файлы живут в sandbox и удаляются после импорта.


И ассистент тоже умеет генерировать

Отдельная фишка: ИИ‑монтажёр и генератор — одна экосистема.

Ассистенту доступна команда generate_media. Примеры сценариев:

  • «Нарисуй закат над морем 16:9» → mediaKind: image, Reve или Soul.

  • «Сделай 5‑секундное видео: кот смотрит в камеру» → цепочка: image, затем video с sourceClipId от первого шага.

  • «Оживи выделенный кадр» → только video, source — клип из таймлайна.

Исполнитель (AiCommandExecutorждёт окончания генерации и импорта, потом выполняет следующие команды: move_clipset_keyframesadd_effect. Можно попросить одним промптом: «сгенерируй фон, положи на Track 3, добавь fade-in 2 секунды» — ассистент разложит это в цепочку.

Ручная панель и голосовой/текстовый ассистент используют один и тот же движок — дублирования логики нет.


Практика: что это даёт монтажёру

Несколько реальных сценариев (не только Breaking Bad для прикола):

  • B‑roll за 3 минуты — нет подходящего плана? Промпт → картинка → оживление → на трек под голос.

  • Обложка и заставка — Soul/Reve в 2K, сразу в проект, дальше титры и motion.

  • Вертикальный контент — 9:16 из коробки, без кропа потом.

  • Итерации — «Generate Again» без смены контекста; удачный вариант — Import, неудачный — в корзину истории.

Ограничения честные: нужен баланс на Higgsfield, генерация 1–3 минуты, модерация контента (NSFW отсекается), для видео нужен source image. Это не замена съёмке — дополнение к монтажу на выезде, когда «снять» уже нельзя, а «доделать» — надо.

Что дальше

Поле для полировки огромное: text-to-video без промежуточного кадра, пресеты промптов под жанры, пакетная генерация раскадровки, привязка стиля к color grade проекта. Но уже сейчас MultiTrack закрывает разрыв между «нейросеть в браузере» и «монтаж на планшете» — в одном приложении, на одном таймлайне.

Если в первой статье речь шла о том, как я собрал редактор, то здесь — о том, что в него пришло новым слоём: генеративный контент как первоклассный гражданин таймлайна, а не прицепной вагон.


MultiTrack — Android (RuStore), macOS (appstorrent.ru - видеогенератор не доступен в мак версии (пока)). Версия для iPhone в планах.

P.S. Тестовые кадры с Уолтером и Джесси — демо пайплайна. В продакшене, разумеется, следите за правами на персонажей и бренды. Для Хабра — идеальный мем, для YouTube — лучше свой промпт.