惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

K
Kaspersky official blog
P
Privacy International News Feed
Simon Willison's Weblog
Simon Willison's Weblog
V
Vulnerabilities – Threatpost
Know Your Adversary
Know Your Adversary
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
P
Palo Alto Networks Blog
NISL@THU
NISL@THU
C
Cybersecurity and Infrastructure Security Agency CISA
S
Securelist
Scott Helme
Scott Helme
T
Threat Research - Cisco Blogs
L
LINUX DO - 热门话题
Google Online Security Blog
Google Online Security Blog
G
GRAHAM CLULEY
Project Zero
Project Zero
P
Privacy & Cybersecurity Law Blog
I
Intezer
T
Threatpost
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
Y
Y Combinator Blog
大猫的无限游戏
大猫的无限游戏
S
Schneier on Security
WordPress大学
WordPress大学
P
Proofpoint News Feed
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
博客园 - Franky
小众软件
小众软件
S
Security Affairs
人人都是产品经理
人人都是产品经理
量子位
Help Net Security
Help Net Security
博客园 - 三生石上(FineUI控件)
V
Visual Studio Blog
PCI Perspectives
PCI Perspectives
雷峰网
雷峰网
A
Arctic Wolf
Apple Machine Learning Research
Apple Machine Learning Research
罗磊的独立博客
博客园 - 聂微东
H
Hacker News: Front Page
Jina AI
Jina AI
博客园 - 叶小钗
C
CXSECURITY Database RSS Feed - CXSecurity.com
L
LINUX DO - 最新话题
Latest news
Latest news
The Last Watchdog
The Last Watchdog
W
WeLiveSecurity
酷 壳 – CoolShell
酷 壳 – CoolShell

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Кто решает судьбу вашего проекта? Разбираем заинтересованные стороны. BABOK #1 Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как Фалькон Тех меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Дообучаем FLUX.2 [klein] за час на одной видеокарте: LoRA, Diffusers и Gradio без лишней боли
Ксения Мосеенкова · 2026-06-11 · via Все публикации подряд на Хабре

Средний

11 мин

4.9K

FLUX.2 [klein] достаточно компактна, чтобы дообучать её на одной потребительской видеокарте. Прогон обучения LoRA для 4B-модели укладывается в 24 ГБ VRAM, занимает около часа на RTX 4090 и стоит примерно $0.50, если арендовать GPU. В этом гайде пройдём весь цикл: соберём датасет, настроим тренер, запустим обучение, загрузим результат в diffusers и завернём всё в Gradio-приложение, которое можно выложить как Hugging Face Space.

К концу у вас будет LoRA в формате .safetensors, которая научит klein конкретному стилю, персонажу, визуальному образу или поведению при редактировании. А ещё — несколько важных нюансов, от которых зависит, получится ли результат пригодным или превратится в кашу.

Здесь всё работает на открытых весах. FLUX.2-klein-base-4B распространяется под Apache 2.0, так что результаты обучения можно свободно использовать в своих проектах.

Собираем проект для Build Small Hackathon

Этот гайд — часть Build Small Hackathon, который проводят Gradio и Hugging Face, а Black Forest Labs выступает одним из спонсоров. Разработка идёт с 5 по 15 июня 2026 года. Есть два ключевых ограничения: используемая модель должна быть не больше 32B параметров, а проект нужно оформить как Gradio-приложение, размещённое на Hugging Face Space.

FLUX.2 [klein] хорошо ложится в эти требования. 4B-модель с большим запасом укладывается в лимит 32B, распространяется под Apache 2.0, так что на ней можно спокойно выпускать свои проекты, и запускается на GPU самого Space. LoRA — это способ сделать модель «своей»: добавить конкретный стиль или тип редактирования под выбранный трек, будь то решение реальной задачи для кого-то из знакомых в Backyard AI или намеренно странный проект для An Adventure in Thousand Token Wood.

Дальше в гайде мы обучим такую LoRA. В последнем разделе покажем, как завернуть её в Gradio-приложение, которое вы отправите на хакатон.

Почему для дообучения стоит взять klein

FLUX.2 [klein] выпускается в двух размерах — 4B и 9B. У каждого есть distilled-вариант на 4 шага и base-вариант на 50 шагов. Для обучения LoRA нам нужен base:

Возьмём для примера 4B-модель.

  • Она помещается. Веса занимают около 13 ГБ в bf16; прогон обучения LoRA укладывается в 24 ГБ, так что достаточно 4090 или L4.

  • Это правильная цель для обучения. Distilled-модели сжаты по числу шагов ради быстрого инференса; адаптер обучается на base-чекпоинте, но затем всё равно загружается поверх distilled-модели. Так быстрее, а в наших тестах обычно ещё и даёт лучшие результаты.

Если вам нужно только запустить готовую LoRA, обучать свою необязательно — на Hub уже есть LoRA от сообщества для klein. Обучать стоит тогда, когда нужен конкретный визуальный стиль, которого нет среди готовых вариантов.

Что понадобится

  • 15–40 изображений в едином визуальном стиле: ваши работы, лицензированные фотографии или произведения из общественного достояния, например с Wikimedia Commons.

  • GPU примерно на 60 минут. RTX 4090 с 24 ГБ VRAM — оптимальный вариант.

  • Тренер. В этом гайде используется ostris/ai-toolkit — популярный тренер от сообщества с веб-интерфейсом без написания кода. Это не единственный вариант: подойдёт любой тренер, совместимый с klein.

Выберите свой вариант запуска

У ai-toolkit есть веб-интерфейс, поэтому YAML вручную редактировать не придётся, если только вам самим этого не хочется. Запустить можно двумя способами:

Вариант

Для кого лучше

Настройка

RunPod template

для большинства, около $0.50 за запуск

one-click deploy, UI запускается автоматически

Local UI

если у вас есть NVIDIA GPU на 24 ГБ+

git clone + npm run build_and_start, открыть localhost:8675

Правила для датасета и подписей ниже одинаковые в обоих вариантах. Если хотите сначала посмотреть интерфейс, у Ostris есть двухминутное walkthrough-видео.

Шаг 1. Собираем датасет

Стилевая LoRA — самый простой способ быстро получить хороший результат. Допустим, вы хотите собрать собственную sprite-LoRA вроде той, что показана выше. Подберите 15–40 изображений в одном визуальном стиле:

Что даёт стилевая LoRA: любой промпт начинает стабильно выдавать изображения в одном и том же визуальном стиле. На примере — результаты Limbicnation/pixel-art-lora, LoRA от сообщества для klein-4B под лицензией Apache 2.0: достаточно написать pixel art sprite, …, и стиль уже «вшит» в модель.

  • Сюжеты, ракурсы и композиции должны быть разнообразными. Не стоит повторять один и тот же фон.

  • Минимум 1024 px по длинной стороне.

  • Для каждого изображения нужна отдельная подпись в .txt с тем же именем файла: img (1).pngimg (1).txt.

Подписывайте содержимое, а не стиль

Для стилевой LoRA подписи должны описывать только то, что находится на изображении, и ничего не говорить о стиле. Стиль — это именно то, что модель должна вывести сама.

Каждая подпись начинается с триггерного слова, после которого идёт описание объекта:

SPR1TE8. A knight in plate armor holding a sword, facing forward, plain background.
SPR1TE8. A fire-breathing dragon with spread wings, seen from the side.

Не пишите pixel art, 8-bit, retro game или sprite style. Если назвать стиль в подписи, модель научится опираться на это слово вместо того, чтобы вшить стиль в веса.

Выберите триггерное слово, которое не является настоящим словом и не пересекается со словарём модели: SPR1TE8, RISO_PR1NT, ZK_TOON. Используйте его в абсолютно одинаковом виде во всех подписях и в конфиге.

Есть одно осознанное исключение: вариации, которыми вы хотите управлять позже. Не подписывайте общий визуальный стиль, который нужен всегда, — пусть он вшивается в триггер. Но если в датасете есть явные подстили, между которыми вы хотите переключаться на инференсе, их стоит назвать. Pixel-art LoRA выше делает именно так: в нескольких её подписях вариант указан явно.

SPR1TE8. A wizard holding a staff, chibi.SPR1TE8. A treasure chest, 16-bit pixel art.SPR1TE8. A castle on a hill, 32-bit pixel art.

Именно эти слова — chibi, 16-bit pixel art, 32-bit pixel art — станут модификаторами, которые вы будете добавлять в промпт на шаге 4. Всё, что вы записали в подписях, потом можно будет подкручивать, поэтому подписывайте изображения с оглядкой на те ручки управления, которые хотите получить.

Не хотите подписывать вручную? Любая vision-модель справится с автоматической генерацией подписей, если дать ей промпт в духе «опиши только содержимое, не упоминай стиль».

Затем быстро просмотрите .txt-файлы и удалите все стилевые прилагательные, которые туда просочились.

Шаг 2. Настраиваем тренер

Если используете веб-интерфейс, достаточно заполнить форму: указать датасет, выбрать FLUX.2-klein-base-4B, задать триггерное слово и запустить обучение. Если вам удобнее YAML, пример обучения klein от BFL показывает ту же задачу в виде конфиг-файла. Для каждого запуска меняются три строки:

  • name: — ваша папка с результатами.

  • trigger_word: — должно совпадать с подписями.

  • datasets: folder_path: — путь к папке с изображениями.

Также задайте sample.prompts с вашим триггером, чтобы по превью-изображениям во время обучения было видно, как постепенно проявляется нужный стиль.

Шаг 3. Обучаем

В веб-интерфейсе просто нажмите Start. Через CLI:

cd /app/ai-toolkit
python run.py /workspace/configs/my_lora_klein_4b.yaml

Во время обучения тренер сохраняет чекпоинт каждые 250 шагов и рядом с каждым пишет примеры изображений. Прогон на 1800 шагов на 4090 занимает меньше часа.

Смотрите на примеры изображений, а не на loss. Именно здесь чаще всего ошибаются. Loss продолжает снижаться ещё долго после того, как изображения уже начинают переобучаться. Для большинства стилевых LoRA визуальный пик приходится примерно на 750–1500 шагов, а не на финальный шаг. Откройте примеры изображений, выберите чекпоинт, который выглядит лучше всего, и используйте именно этот .safetensors, а не обязательно последний.

Шаг 4. Используем результат

Чтобы подключить LoRA, достаточно добавить две строки поверх обычного пайплайна. Ниже — та самая pixel-art LoRA из начала гайда, загруженная прямо с Hub:

from diffusers import Flux2KleinPipeline
import torch

pipe = Flux2KleinPipeline.from_pretrained(
    "black-forest-labs/FLUX.2-klein-4B", torch_dtype=torch.bfloat16
).to("cuda")
pipe.load_lora_weights("Limbicnation/pixel-art-lora")

img = pipe(
    prompt="pixel art sprite, a brave knight in shining armor, game asset, transparent background",
    num_inference_steps=4, guidance_scale=1.0,
    height=512, width=512,
).images[0]

Эта LoRA также реагирует на стилевые модификаторы: добавьте в промпт 16-bit pixel art, 32-bit pixel art или chibi, чтобы сдвинуть визуальный стиль. Все эти модификаторы пришли из подписей, на которых её обучали. В этом и состоит отдача от хорошо собранного датасета: слова, которым вы обучаете модель, потом становятся ручками, которые можно крутить на инференсе.

Если хотите использовать свою LoRA, укажите в load_lora_weights путь к вашему .safetensors или к вашему репозиторию на Hub и подставьте своё триггерное слово.

Обучение идёт на base-4B, а инференс — на distilled-версии FLUX.2-klein-4B на 4 шага, как в примере выше. При применении LoRA к distilled-модели результат обычно получается лучше, чем на базовой модели, и работает это быстрее, поэтому обученную LoRA рекомендуется запускать именно так.

Если не хочется писать код просто ради проверки результата, в стартовом Space для Build Small есть отдельная вкладка: она загружает LoRA и рендерит базовую и дообученную версии с одинаковым seed, чтобы можно было сразу увидеть, что именно изменил адаптер.

Обучаем LoRA для редактирования

FLUX.2 [klein] также поддерживает редактирование, поэтому можно обучить и LoRA для редактирования: подаёте фотографию, на выходе получаете её преобразованную версию — с перекрашиванием, сменой стиля, добавлением или удалением объекта, заменой фона. В klein оба режима идут через один пайплайн: Flux2KleinPipeline работает как text-to-image, если не передавать image=, и как image-edit, если image= передан. Поэтому LoRA для редактирования — это просто LoRA, в датасете которой рядом с каждым target есть входное изображение. Модель та же, тренер тот же — всё отличие только в данных.

Для конкретики вот LoRA, которую я обучил для этого гайда: stephenbtl/ugly-kontext-klein-4b-lora под Apache 2.0. Она берёт фотографию питомца и перерисовывает её в нарочито грубый «ugly sketch», сохраняя позу и композицию исходника. Обучение шло на 120 парных примерах: входная фотография плюс выходной скетч.

LoRA в действии: на вход подаётся фотография слева, на выходе получается «ugly sketch» справа, при этом поза и кадрирование кота сохраняются. Это результат промпта change the photo the cat into an ugly sketch of the same cat, запущенного на пайплайне base-4B с подключённым адаптером.

LoRA в действии: на вход подаётся фотография слева, на выходе получается «ugly sketch» справа, при этом поза и кадрирование кота сохраняются. Это результат промпта change the photo the cat into an ugly sketch of the same cat, запущенного на пайплайне base-4B с подключённым адаптером.

По сравнению с рецептом для стилевой LoRA меняются три вещи.

  1. Датасет становится парным. Вместо одной плоской папки нужны две:

ugly_kontext/
  reference/   inputs         100.jpg, 101.jpg, ...
  target/      edited outputs 100.jpg, 101.jpg, ...
               + captions     100.txt, 101.txt, ...

ai-toolkit сопоставляет reference/<id> с target/<id> по имени файла без расширения; подписи лежат в папке target. Чистая пара «вход, выход» даёт больше сигнала, чем одно текстовое описание, поэтому примеров нужно меньше: 50–200 пар вполне достаточно. Для этой LoRA использовалось 120.

2. Подпись — это инструкция, а не описание. Подпись для стилевой LoRA описывает, что находится на изображении. Подпись для LoRA редактирования описывает трансформацию, которую нужно применить. У ugly-kontext подписи выглядят просто так:

change the photo the cat into an ugly sketch of the same cat
change the photo the dog into an ugly sketch of the same dog
change the photo the animal group into an ugly sketch of the same group

Здесь не нужен выдуманный триггер. Держите формулировку трансформации одинаковой по всему датасету, и повторяющаяся фраза — в этом случае ugly sketch — сама станет активационной фразой при инференсе. При желании можно всё равно добавить trigger_word: для более жёсткого включения, но для редактирования это необязательно.

3. Одна строка в конфиге. Добавьте control_path: рядом с folder_path: и укажите в нём папку reference. Именно эта строка превращает стилевую LoRA в LoRA для редактирования:

datasets:
  - folder_path:  "/workspace/datasets/ugly_kontext/target"     # outputs + captions
    control_path: "/workspace/datasets/ugly_kontext/reference"  # inputs ← makes it an edit LoRA
    caption_ext: "txt"
    resolution: [512]   # match your source; bucketing higher just upscales

Всё остальное — arch: "flux2_klein_4b", сеть 128/64/64/32, lr: 1e-4, flowmatch, обучение на base-4B — остаётся таким же, как в конфиге для стилевой LoRA. LoRA для редактирования тоже обычно достигают визуального пика где-то между 1000 и 1750 шагами, поэтому чекпоинт выбираем глазами, как и раньше. В указанном выше репозитории лежат все чекпоинты с 250 до 2000 шагов, чтобы их можно было сравнить.

На инференсе вы передаёте входную фотографию. Этот пример загружает опубликованную LoRA прямо с Hub и запускает её на distilled-модели:

import torch
from PIL import Image
from diffusers import Flux2KleinPipeline

pipe = Flux2KleinPipeline.from_pretrained(
    "black-forest-labs/FLUX.2-klein-4B", torch_dtype=torch.bfloat16
).to("cuda")
pipe.load_lora_weights(
    "stephenbtl/ugly-kontext-klein-4b-lora",
    weight_name="ugly_kontext_klein_4b_v1.safetensors",
)

reference = Image.open("your_pet.jpg").convert("RGB").resize((1024, 1024))
img = pipe(
    prompt="change the photo the cat into an ugly sketch of the same cat",
    image=reference,
    num_inference_steps=4, guidance_scale=4.0,
).images[0]

Для klein ширина и высота должны делиться на 16, а (W·H)/256 должно быть не больше 4096; 1024×1024 подходит.

Датасет состоял только из кошек, собак и групп животных, но трансформация обобщается: подайте на вход здание, и модель всё равно применит то же редактирование — «перерисовать как скетч»:

Объект, которого не было в обучающем наборе. LoRA выучила именно редактирование — сохранить структуру и перерисовать её в виде линейного рисунка, — а не просто «как рисовать кошек».

Самое сложное в LoRA для редактирования — не обучение, а данные. Пары «до/после» не появляются сами собой из папки с красивыми картинками. Обычно их собирают одним из трёх способов:

  • переиспользуют существующий Kontext-style датасет для редактирования — именно так сделана ugly-kontext: её пары изначально собирались для FLUX.1 Kontext;

  • генерируют целевые изображения программно — например, red-zoom LoRA в стартовом Space просто кропает и апскейлит выделенную область, без ручного редактирования;

  • или один раз прогоняют набор входных изображений через существующую edit-модель и оставляют удачные результаты.

Один нюанс из этого запуска: в ugly-kontext есть 120 пар, но всего три формулировки подписи. Модель хорошо попадает в саму трансформацию, но плохо обобщается на промпты, сформулированные иначе. Если хотите, чтобы она понимала более свободные инструкции, варьируйте формулировки по всему датасету — достаточно 5–10 вариантов.

Заворачиваем всё в Gradio-приложение

Для этого хакатона нужно отправить Gradio-приложение на Space. Если хотите упростить себе жизнь, можно взять готовый вариант. Стартовый Space для Build Small в одном месте умеет text-to-image, редактирование изображений, запуск LoRA и содержит гайд по обучению. Дублируете его через меню в правом верхнем углу Space — и через пару минут у вас уже есть рабочее klein-приложение в вашем аккаунте: без токена и без дополнительной настройки. После этого можно обрезать его под свою идею.

Если хотите обучить LoRA, вычисления всё равно понадобятся. Но всё остальное можно запускать прямо внутри этого Space.

Пара нюансов, которые стоит знать перед публикацией:

  • Хостинг ZeroGPU Space требует HF PRO ($9 в месяц) на личном аккаунте. Без этого Space всё равно можно продублировать, и он будет работать у тех, у кого он есть, а также бесплатно запускаться на любой вашей CUDA-машине. 4B-модели нужно около 13 ГБ VRAM, поэтому Space без GPU её не потянет.

  • Добавьте peft в requirements.txt. Без него pipe.load_lora_weights() падает с ошибкой "PEFT backend is required": Space с LoRA соберётся, но упадёт уже во время выполнения.

Подведем итоги

Весь цикл выглядит так: 15–40 изображений, подписи только с описанием содержимого и выдуманным триггерным словом, неизменённая строка arch и чекпоинт, выбранный глазами примерно в диапазоне 750–1500 шагов. Именно это обычно отделяет аккуратную стилевую LoRA от переобученной. Для LoRA редактирования вместо одной папки берём парные папки reference/ и target/, пишем подпись как инструкцию и добавляем одну строку control_path: — всё остальное остаётся тем же. Затем заворачиваем результат в Gradio-приложение и публикуем Space.

Ссылки

Работа с LoRA не заканчивается на обучении адаптера: результат ещё нужно встроить в понятный сценарий, научиться управлять генерацией и довести до рабочего инструмента. Продолжить разбираться в прикладном использовании ИИ можно на бесплатных уроках. Преподаватели-практики расскажут про свои подходы, а участники смогут познакомиться с форматом обучения и задать вопросы.

  • 18 июня, 20:00. «Автоматизация креативного контента». Записаться

  • 22 июня, 20:00. «Продвинутое структурирование промптов: как получать предсказуемый результат». Записаться

  • 29 июня, 20:00. «Обзор ИИ-технологий для разработчиков: от идей до рабочих решений». Записаться

Больше бесплатных уроков июня смотрите в дайджесте.