惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

小众软件
小众软件
Schneier on Security
Schneier on Security
N
News and Events Feed by Topic
Hacker News - Newest:
Hacker News - Newest: "LLM"
AI
AI
Recent Commits to openclaw:main
Recent Commits to openclaw:main
Security Archives - TechRepublic
Security Archives - TechRepublic
H
Heimdal Security Blog
P
Privacy International News Feed
I
Intezer
AWS News Blog
AWS News Blog
IT之家
IT之家
U
Unit 42
S
Securelist
M
MIT News - Artificial intelligence
A
Arctic Wolf
T
The Exploit Database - CXSecurity.com
Last Week in AI
Last Week in AI
博客园 - 聂微东
Google Online Security Blog
Google Online Security Blog
云风的 BLOG
云风的 BLOG
MyScale Blog
MyScale Blog
D
Darknet – Hacking Tools, Hacker News & Cyber Security
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
Hacker News: Ask HN
Hacker News: Ask HN
B
Blog
Hugging Face - Blog
Hugging Face - Blog
GbyAI
GbyAI
Project Zero
Project Zero
C
CXSECURITY Database RSS Feed - CXSecurity.com
P
Privacy & Cybersecurity Law Blog
月光博客
月光博客
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
Attack and Defense Labs
Attack and Defense Labs
腾讯CDC
T
Threat Research - Cisco Blogs
W
WeLiveSecurity
大猫的无限游戏
大猫的无限游戏
Simon Willison's Weblog
Simon Willison's Weblog
aimingoo的专栏
aimingoo的专栏
The Last Watchdog
The Last Watchdog
C
Cybersecurity and Infrastructure Security Agency CISA
C
Cisco Blogs
The Register - Security
The Register - Security
Google DeepMind News
Google DeepMind News
TaoSecurity Blog
TaoSecurity Blog
S
Security @ Cisco Blogs
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
博客园 - 【当耐特】
PCI Perspectives
PCI Perspectives

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Генерация изображений: топ-10 ошибок новичков
SpeShuAI_guide · 2026-06-17 · via Все публикации подряд на Хабре

Плохой результат при генерации изображений — почти никогда не вина модели. Чаще это десять предсказуемых ошибок, которые делают все, кто только начинает работать с нейросетями. Каждая из них имеет конкретную техническую причину — разберём по порядку.

Ошибка 1: слишком общий промпт при генерации изображений

Самая распространённая
Промпт «красивый портрет девушки» активирует статистическую середину обучающей выборки — усреднённый результат, который видели миллионы раз. Модель не знает, что именно вы хотите, и выбирает наиболее вероятный вариант по своим данным.

Почему так происходит технически: диффузионные модели итеративно уточняют изображение из шума, ориентируясь на эмбеддинг промпта. Чем менее специфичен промпт — тем шире зона притяжения в пространстве изображений, тем более усреднённым будет результат.

Как исправить: добавляйте конкретику по четырём осям — субъект, среда, освещение, стиль.

Было: «красивый портрет девушки»

Стало: «портрет девушки 25 лет, короткие рыжие волосы, веснушки, студийное освещение с боковым светом, нейтральный серый фон, Canon 85mm f/1.4, фотореалистичный стиль, высокая детализация кожи»

Ошибка 2: игнорирование негативного промпта

Большинство новичков пишут только позитивный промпт и удивляются, когда на результате появляются лишние пальцы, артефакты кожи или размытый фон там, где он должен быть четким. Негативный промпт — это явное указание модели, чего не должно быть на изображении.

Технически: в classifier-free guidance модель балансирует между условным и безусловным предсказанием. Негативный промпт задаёт направление, от которого нужно уйти при итерациях. Без него модель не знает, какие артефакты вы считаете недопустимыми.

Базовый негативный промпт для портретной генерации изображений (пишется на английском — модели обучены преимущественно на англоязычных данных и реагируют на него точнее): bad anatomy, extra fingers, deformed hands, blurry, low quality, watermark, text, logo, overexposed, underexposed, plastic skin, ugly, bad proportions, mutation.

Ошибка 3: неправильный выбор модели для генерации изображений

FLUX, Seedream, Nano Banana, Grok — это не взаимозаменяемые инструменты с разным интерфейсом. У каждой модели своя архитектура, своя обучающая выборка и своя специализация. Брать FLUX для редактирования существующего фото — то же самое, что использовать молоток вместо отвёртки.

Ориентир по задачам:

- FLUX — фотореалистичная генерация с нуля, точное следование детализированным промптам, сложные сцены с несколькими объектами.

- Seedream — художественные и стилизованные изображения, иллюстративная эстетика, аниме и concept art.

- Nano Banana — редактирование существующих фотографий по текстовым инструкциям, консистентность персонажей через несколько правок, генерация читаемого текста внутри изображения.

- Grok — стилизованный контент с сохранением авторской эстетики исходника.

Ошибка 4: низкое разрешение исходника при редактировании

При работе с Nano Banana или другими редакторами изображений исходное фото напрямую определяет качество результата. Модель работает с тем, что есть — и если исходник 400×300 пикселей, детализации для качественного редактирования просто нет.

Технически: при инпейнтинге и редактировании модель использует пиксельную информацию оригинала как anchor-точки. При низком разрешении эти точки несут мало информации, и модель начинает «додумывать» детали — обычно некорректно.

Минимальные требования: 1000 пикселей по длинной стороне для базовых правок, от 2000 пикселей для работы с лицами и деталями. Если исходник слабый — сначала апскейл, потом редактирование.

Ошибка 5: перегруженный промпт при генерации изображений

Противоположность ошибки №1 — попытка описать в одном промпте всё сразу. «Девушка в красном платье стоит на фоне заката, держит букет цветов, рядом кот, на заднем плане горы, студийный свет, аниме-стиль, фотореализм» — это не промпт, это конфликт.

Почему это не работает: эмбеддинг промпта — это вектор в многомерном пространстве. Когда в промте есть взаимоисключающие требования (аниме-стиль + фотореализм) или слишком много равнозначных элементов, модель распределяет «внимание» равномерно и ни один элемент не получает достаточного веса.

Правило: один главный объект, одна среда, одно освещение, один стиль. Всё остальное — в следующей итерации.

Ошибка 6: игнорирование соотношения сторон в генерации изображений

Большинство новичков генерируют в квадрате 1:1 — и потом удивляются, что портрет выглядит обрезанным, а пейзаж не передаёт пространство. Соотношение сторон — это не технический параметр, а композиционное решение, которое модель учитывает при генерации.

Практический ориентир:

- 1:1 — продуктовые фото, аватары, контент для соцсетей без доминирующего направления.

- 4:5 или 9:16 — вертикальные портреты, Stories, Reels.

- 16:9 — пейзажи, баннеры, обложки YouTube.

- 2:3 — классический портретный формат, похожий на плёночную фотографию.

Важно: если генерировать широкий пейзаж в квадрате, модель будет вынуждена «сжать» композицию. Результат — либо обрезанный горизонт, либо неестественные пропорции объектов.

Ошибка 7: ожидание идеального результата с первой попытки

Генерация изображений — итеративный процесс. Профессионалы редко останавливаются на первом результате: они генерируют несколько вариантов, выбирают лучший как основу, дорабатывают промпт и запускают снова. Новички часто ждут идеала с первого запуска — и разочаровываются.

Рабочий подход: запустите 4–6 вариантов с одним промптом. Выберите тот, где композиция и общее направление ближе к цели. Используйте его как референс для следующей итерации — либо через img2img, либо через уточнение промпта. Обычно качественный результат требует 3–5 итераций, не одной.

Токенная модель оплаты удобна именно для итераций: платите за каждую генерацию отдельно, а не за месяц вперёд независимо от того, сколько раз запускали.

Ошибка 8: смешение стилей без приоритета

«Фотореализм в стиле аниме с акварельными деталями» — это три взаимоисключающих стилевых директивы в одном промпте. Модель не знает, какой из них главный, и выдаёт компромисс, который не похож ни на один из трёх.

Как правильно: выберите один базовый стиль и используйте остальные только как модификаторы. Например, «фотореалистичный портрет с мягкой живописной обработкой» — здесь фотореализм главный, живописность — дополнение, а не конкурент.

Если нужно совместить несколько стилей — используйте весовые коэффициенты там, где модель их поддерживает. В FLUX и Stable Diffusion это синтаксис (style1:0.7) (style2:0.3). В моделях без явных весов — порядок слов: что написано раньше, то получает больший вес.

Ошибка 9: игнорирование освещения в промпте

Освещение — это то, что делает изображение профессиональным или любительским. При генерации изображений большинство новичков не указывают источник света вообще — и получают «среднестатистическое» освещение, которое не создаёт ни настроения, ни объёма.

Несколько конкретных формулировок, которые реально меняют результат:

- «студийное освещение с боковым ключевым светом» — классический портретный свет с тенями.

- «золотой час, мягкий боковой свет» — тёплое освещение заката, длинные тени.

- «overcast lighting» — рассеянный облачный свет, без резких теней, идеально для деталей.

- «rim lighting» — контровой свет по контуру объекта, объект выделяется на тёмном фоне.

- «dramatic chiaroscuro» — контрастное освещение в духе Караваджо, сильные тени.

Ошибка 10: зоопарк подписок вместо одного инструмента

После разбора девяти ошибок становится понятно: для нормальной работы нужны разные модели под разные задачи. FLUX для генерации, Nano Banana для редактирования, Seedream для арта. На практике это превращается в три отдельных сервиса, три подписки в долларах, три разных интерфейса — и постоянное переключение между вкладками.

Это отдельная ошибка, которая замедляет работу и создаёт трение там, где его не должно быть. Итерация — ключевой процесс при генерации изображений, и каждое лишнее переключение между сервисами разрывает этот процесс.

В SpeShu.AI все модели из этого гайда доступны в одном интерфейсе: FLUX, Seedream, Nano Banana, Grok и другие. Оплата в рублях по СБП, без VPN, токенная модель без ежемесячной подписки. Промокод HABRTSNIS15 даёт 15% к сумме пополнения.

Если хотите разбирать конкретные кейсы, смотреть какие параметры дали лучший результат и задавать вопросы практикам, присоединяйтесь в комьюнити креаторов. Более 11 тысяч человек уже с нами.