慣性聚合 高效追讀感興趣之博客、新聞、科技資訊
閱原文 以慣性聚合開啟

推薦訂閱源

Google DeepMind News
Google DeepMind News
人人都是产品经理
人人都是产品经理
M
MIT News - Artificial intelligence
博客园 - 叶小钗
MyScale Blog
MyScale Blog
V
Visual Studio Blog
月光博客
月光博客
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
量子位
I
InfoQ
有赞技术团队
有赞技术团队
阮一峰的网络日志
阮一峰的网络日志
Jina AI
Jina AI
V
V2EX
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Blog — PlanetScale
Blog — PlanetScale
Last Week in AI
Last Week in AI
雷峰网
雷峰网
Stack Overflow Blog
Stack Overflow Blog
博客园 - Franky

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Кто решает судьбу вашего проекта? Разбираем заинтересованные стороны. BABOK #1 Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как Фалькон Тех меняет пространство к лучшему
神经网活像之术:何如以神经网络令影像复生于二〇二六年?
SoftLine88 ( · 2026-05-25 · via Все публикации подряд на Хабре
Нейросеть оживить фото: Как оживить фото нейросетью в 2026 году

神经网活络影像:如何以神经网络活络影像 于二零二六年

二零二六年,询「神经网络活络影像」已非幻术之戏具。今乃寻常之生产器:为短章、档案重绘、化身、故事、演说、游戏雏形,乃至影戏之预览。

然须知:所谓「活化照片」,非一技耳。此名之下,隐各异之流程:

  • 面部动画依关键点为据

  • 创制短章于画影

  • 论道于音。

  • 移运动于参照视频

  • 視覺流散而人物存焉

  • 乃混合之系统,其人面以一模型动之,其境以另一模型绘之。

试析其技之理,观二零二六年间所用之模型,习何法备照片,撰何言为提纲,以得非「橡皮之面」,实为生动之短章。

何以使照片生辉,成二零二六之风尚?

其故非独模型增丽,更在别处。視頻,遂成生成之便,若圖像之於二二至二三載。

昔者,常見之流程若此:

фото → аватарная модель → моргание → улыбка → 3 секунды странного видео

今則近於此:

фото → анализ лица/сцены → построение motion-представления → генерация кадров → стабилизация → апскейл → короткий ролик

當今之模,非惟能動其唇,復能增:

  • 微顏之動;

  • 首之轉;

  • 息之調。

  • 目动。

  • 光对动之应

  • 微役于镜。

  • 天象之变

  • 时序人事之协。

故也照片复生非惟用以制 meme,亦可用诸大事:如使旧时家影复生,助博物馆之业,成视觉叙事之卷,演历史之复现,及个性化之内容。

神经之工,如何使影生动

简言之,其事若此:

有静影一幅,须推其上物,于时序中,将如何而动。

此乃模型所困之务。夫摄影无以明首后之状,无以察侧影之形,无以辨景深之构,亦无以知动静之宜。是故系统实乃补缀世界隐态

其常法若此:

一、析入像之图

模型或众模型所取者:

  • 面容及其边界;

  • 要津:目、眉、鼻、唇、颏。

  • 发罩

  • 约略之深。

  • 头势

  • 照明

  • 圖像之風格

  • 人格之征,当存者。

肖像之制,常取二维三维之点,三维模型系数,面嵌入,密运动场。

步骤二。构运动之象。

运动之状,可异言表之。

法式。

所存。

善处。

要义。

面体之点。

简肖像之动。

3DMM

神态,形貌

独白,语调同步

光流

像素偏移

运动传递

隐动

模型隐域之动

今世视频弥散

相机轨迹

虚拟相机之动

电影般之影片

旧时系统,常实将像素拽于动图之卡。新者多在潜空间作业:非移已成之图,乃生帧序,以初照为锚,固其真形。

步骤三。生帧

此间,视频扩散模型与视频转换器入局。

исходное изображение + текстовый промт + motion-план + параметры камеры + ограничения идентичности

继而,模型生成帧集,力图保全:

  • 面容如一;

  • 光景相谐;

  • 体态合乎物理;

  • 行止绵延;

  • 背景恒定。

根本之困,乃时序之谐。若每帧皆如孤画生成,面容必似浮萍:目眸易形,斑痣隐没,发丝自舞。是故今世之术,用瞬息之注,三维潜数,光学之限,及后制之工。

所用之模:弥散之术,动势之理,面相生发之络。

二零二六年间,可分三等要义。

扩散之术 / 视频扩散

此乃模塑之术,生视频若帧序,渐去时空之躁。

其长处有:

  • 善摹风格;

  • 非惟面容,亦能动其景;

  • 且能驭镜之移。

  • 可成电影之光,造深邃之境,生幽微之氛;

  • 宜于摄影,适于短章之制。

其类之例:Runway Gen-4/Gen-4.5,Google Veo 3.1,Kling,Luma Ray,他之image-to-video系统。Runway Gen-4,如之,重用视觉之参照,以存其式,其人,其地;Veo 3.1则持生视频于图像,有高解之选,兼有本生之音。

缺:此等模子或可「重造」人面,尤以所引辞过激为甚:

плохой запрос:сделай человека счастливым, камера летит вокруг него, сильный ветер, драматический свет, улыбка, поворот головы на 90 градусов

一图而已,已属过矣。模子始补人面之不可见者,往往失其本真。

动势之模子

此乃移动于源之一至源之他者之模子。

经典之理:

source image + driving video → animated image

盖取人像之影,兼取他者眨目、言谈或首转之影。模型移其动,而存其貌于像中。

早岁之重法,莫过于 First Order Motion Model。此法以所习之关钥之集,及局部仿射之变,状其动,以驱影之视频,使原像之物得生灵。

较新之肖像系统,如LivePortrait,乃发此意:非重于朦胧散漫之处理,而用隐式关键点、拼接及重定目标控制,得速、控、质之佳平衡。

其利有:

  • 速;

  • 持面佳;

  • 宜于肖像;

  • 可预。

  • 可精微控眼、唇、首。

缺憾:

  • 对周遭之辨稍逊;

  • 动作之生动画意稍减;

  • 难得「玄妙」或艺趣之态;

  • 头首大转时,生奇形。

面部动画网络

此乃专用于面容之模型:会话头像、情态、语音同步、表情动作。

其运作常如斯:

фото + аудио / текст / motion-карта → последовательность выражений лица → видео

譬如,SadTalker生成三维运动系数:首之姿态与面容之表情,复以三维感知渲染,成会话头像。

AniPortrait立二阶之流程:首自音中析取三维形貌,转译为二维之关键点,继以扩散之模体,配动势之单元,化此序列为逼真肖像之动画。

EMO则异趣,趋直音化影之途:无显明三维之模,亦无间阶之面要,故得声乐化身更富情态。

活像之术,分步而行

其初,备其图

若图之佳者,宜具此状:

  • 面光足明;

  • 不显重糊;

  • 目可见;

  • 唇不掩于手、巾、微音器;

  • 面不偏转太甚

  • 长边至少1024像素之许可。

为存档之影,宜先为之:

реставрация → шумоподавление → повышение резкости → аккуратная колоризация → анимация

然勿过甚。若于动画前以放大器重塑面容,则模型或失其年岁,皮相之质,及史实之真。

第二步。择动画之式。

首须决其所需:

其务

更合宜

眨眼,浅笑

面部动画网络

会话肖像

音频驱动肖像

历史肖像

图像转视频+柔和动势

电影感运镜

视频扩散

动漫活化

图像化视频,具风格之控

档案之影

修复加微动

情态逼真

肖像动画加情态之调

初学者之谬,欲毕其功于一役:笑颜、言语、机位之转、雨、风、光、缩放与慢镜。一影之成,宜自微始。

第三步:当提词,宜以动显,勿以抽象言

不佳之提词:

Оживи фото красиво и реалистично.

佳之提词:

Человек слегка поднимает взгляд, мягко моргает, едва заметно улыбается. Голова остаётся почти неподвижной. Освещение и черты лица сохраняются, фон не меняется.

神经网络于可察之行,较之"美"、"生动"、"情感"等评语,理解尤深

第四步:制动之度宜限

肖像之安全范围:

  • 首转之度:不逾十至二十度

  • 微笑:淡或中;

  • 镜头:缓移或微调;

  • 时长:四至八秒;

  • 情绪:一,非五态相混。

第五步。制二至四式。

图像之活,乃机率之事。纵佳之指令,遇异之种,果亦殊。常法若此:

черновик → выбор лучшего движения → уточнение промта → финальная генерация → апскейл → монтаж

诸般任务之提示例

下文例皆俄语。可依具体服务而调适之

面容栩栩如生

Портретный человек на фото слегка оживает: мягко моргает, дыхание едва заметно, взгляд плавно смещается чуть в сторону камеры, затем возвращается. Лицо сохраняет исходные черты, кожа не сглаживается, фон остаётся неподвижным. Движение спокойное, реалистичное, без резких эмоций.

浅笑天然,无矫饰之态

Человек постепенно переходит от нейтрального выражения к очень мягкой естественной улыбке. Уголки губ поднимаются едва заметно, глаза слегка теплеют, брови почти не двигаются. Голова остаётся стабильной, освещение и форма лица не меняются.

惊异之情

Человек замечает что-то неожиданное за камерой: глаза немного расширяются, брови плавно поднимаются, рот слегка приоткрывается, затем выражение возвращается к спокойному. Движение короткое и сдержанное, без карикатурности.

历史人物画像

Старинный портрет оживает очень деликатно: человек медленно моргает, слегка поворачивает голову на несколько градусов, взгляд становится живым. Сохраняется фактура картины, мазки, историческая одежда и мягкий музейный свет. Никакой современной мимики, никаких резких движений.

人工智能存档之家族影像

Чёрно-белый архивный снимок мягко оживает: человек слегка вдыхает, моргает, почти незаметно улыбается. Сохраняется зерно плёнки, естественные дефекты старой фотографии, спокойная поза и историческая атмосфера. Фон не должен перестраиваться или становиться современным.

动漫之风格

Персонаж в стиле рисованного аниме плавно оживает: волосы слегка колышутся, глаза блестят, выражение лица меняется с задумчивого на тёплую улыбку. Камера медленно приближается, фон остаётся мягким и стабильным. Движение выразительное, но не чрезмерное.

鏡頭運動

Портрет остаётся реалистичным, камера медленно приближается к лицу с лёгким смещением вправо. Человек спокойно смотрит в объектив, один раз моргает, свет мягко скользит по лицу. Глубина резкости небольшая, фон слегка размытый, движение камеры плавное и дорогое по ощущению.

慢鏡

Медленное кинематографическое оживление портрета: человек очень плавно поворачивает взгляд к камере, ресницы медленно опускаются при моргании, лёгкое движение воздуха едва заметно трогает волосы. Атмосфера спокойная, замедленная, без резких изменений лица.

照片轉短視頻以供社交網絡

Создай короткий вертикальный ролик из портрета: человек оживает, мягко улыбается, камера медленно приближается, фон получает лёгкое глубинное движение. Лицо остаётся узнаваемым, без изменения возраста и черт. Стиль реалистичный, чистый, современный.

負面提示

Не менять личность, не менять возраст, не делать лицо пластиковым, не добавлять лишние зубы, не искажать глаза, не менять форму носа, не деформировать волосы, не перестраивать фон, не добавлять посторонних людей, не делать резкие движения головы.

工具介紹

大型圖像轉視頻模型

此乃通用的系統,可將照片化為短小影片:

  • Runway;

  • Veo;

  • Kling;

  • 陽光;

  • 似之多元模態視頻服務。

其善,非僅顏勢,亦需景致:鏡、景、光、氣、衣動、風、物。

宜用於此類任務:

портрет → кинематографичный клипархивное фото → мягкая реконструкцияиллюстрация → анимационная сценаперсонаж → короткое промо-видео

肖像與談頭模型

蓋悲言者、生肖畫、動畫肖像、類情緒解決之後嗣也。

更适于:

  • 语出之偶人;

  • 唇形同步;

  • 表情可驭;

  • 影调未调而动微;

  • 肖像短章速制。

若但欲面容生辉 — 此类模型尤佳,非重视频扩散之术。

Ranvik

Ranvik可视为"上传照片得生动短视频"之场景中便捷之实用工具。于此类服务,其能成其事:肖像生动化、表情增添、图像制短视频、与现代动画模型相合。此非开源模型与本地调适之手工流程之替代,然为速成之便,不欲自择数器者之良选也。

实践之法若此:

  • 用于试验与速成短片,则宜用 Ranvik 此类网服;

  • 用于精控肖像,则当择专精人像之模;

  • 用于繁复场景与机位,则需巨制之 image-to-video 模型;

  • 用于成片之质,则宜用多阶相合之混合流程。

然则 RANVIK 平台复能何为?

人工智能图像生成 — 此服务可依君之描述,自无至有创制图像,或升图像之质,易其细部,或一指间去其背景.

文本之神经网 — 撰文、修文、译文、觅新意、备剧本.

视频之神经网 —摹形为轮,改易帧中单物,增绘图文,添动画之奇效.

免费之Ranvik AI —统域一处,汇文图声影之工器.

神经网之音工器 — 人工智能助以天籁之音,为文赋声,且能创制独异之乐章,调其音律,各适其宜。

动静相生之绘 — 此术可化静物为生动画境,宛若实境,栩栩如生。

文转声之术 —此工具有助于化文为音,可择声调、韵律,以达声情并茂之效。

乐音之造 —此平台允人依所定之曲式、风格、气韵,创制完整之乐章。

图像之成文已备 —此服务提供预制之问询范本,助人得至精至美之视效。

视频之问 —此平台备有经核之问询措辞,大省制作精妙雅致影片之劳。

局限、风险、伦理

肖像或艺术形象之复活,初看似无伤,然技止此耳,实与深度伪造同域。

其患之尤甚者

  • 擅用他人之面容,未得其许;

  • 伪造虚妄之函牍;

  • 冒充已逝之人,不谙族长之命;

  • 淆乱史实之脉络。

  • 生成令人难堪之景;

  • 消除岁月之痕、病痛之迹、伤疤之痕或民族之别。

技术之限

乃至二二六年间,模型犹有误:

  • 牙齿或似浮游;

  • 眼镜或遭扭曲;

  • 耳环与发丝各自为政;

  • 背景与面容同呼吸。

  • 旋首则形骸失其度;

  • 往昔之影或成过时之貌;

  • 皮肤时化合成之滑腻物。

佳法

活用须慎:

минимальное движение лучше сильной мимикисохранение личности важнее эффектностиархивность важнее глянцасогласие человека важнее вирусности

史家与家藏之影,尤宜“少动而重本”。

技道何往?

次第之变,非仅影转声,实乃可驭之造形.

盖将时日,此般流程必成通例:

одно фото → стабильная личность → несколько эмоций → голос → жесты → сцены → сериализованный персонаж

技道之势,终趋合一:

  • 视频弥散;

  • 三维先验之容。

  • 音控动画;

  • 运动操控;

  • 摄影机调适;

  • 人物步调一致之保;

  • 生成内容之标记;

  • 视频本地修之术。

主旨之妙,非在模型能否令照片复生。此已能之。所问者别:能否操控得当,合乎道义,且不失其本真。

今之至效,非恃魔法之钥,乃赖工巧之程:

хорошее фото + понятная задача + умеренное движение + точный промт + правильный инструмент = живое видео без ощущения дешёвого дипфейка

是故,至二二六年,询「神经网令照片复生」者,__JHSNS_SEG_3e23e7b6_257__»宜广解之:非独滤也,非徒戏也,乃技之小栈,处视之机、生影之术、立形三维、拟人动之界也。