惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Webroot Blog
Webroot Blog
The Register - Security
The Register - Security
Last Week in AI
Last Week in AI
WordPress大学
WordPress大学
N
News and Events Feed by Topic
H
Heimdal Security Blog
小众软件
小众软件
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
C
CERT Recently Published Vulnerability Notes
博客园 - 司徒正美
Hugging Face - Blog
Hugging Face - Blog
S
Secure Thoughts
The Cloudflare Blog
大猫的无限游戏
大猫的无限游戏
Latest news
Latest news
Simon Willison's Weblog
Simon Willison's Weblog
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
美团技术团队
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
S
SegmentFault 最新的问题
月光博客
月光博客
酷 壳 – CoolShell
酷 壳 – CoolShell
T
Threatpost
Recent Commits to openclaw:main
Recent Commits to openclaw:main
罗磊的独立博客
J
Java Code Geeks
Jina AI
Jina AI
C
CXSECURITY Database RSS Feed - CXSecurity.com
Cloudbric
Cloudbric
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
P
Privacy & Cybersecurity Law Blog
L
LINUX DO - 最新话题
量子位
P
Palo Alto Networks Blog
O
OpenAI News
N
News | PayPal Newsroom
博客园_首页
C
Cyber Attacks, Cyber Crime and Cyber Security
有赞技术团队
有赞技术团队
人人都是产品经理
人人都是产品经理
Apple Machine Learning Research
Apple Machine Learning Research
V
V2EX
T
Tailwind CSS Blog
博客园 - Franky
AWS News Blog
AWS News Blog
V
Visual Studio Blog
L
Lohrmann on Cybersecurity
宝玉的分享
宝玉的分享
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
P
Privacy International News Feed

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Как я написал свой overlay-переводчик на python
Инкогнито · 2026-06-18 · via Все публикации подряд на Хабре

Простой

4 мин

94

Бывало у вас такое: находите крутую инди-игру или визуальную новеллу, а официальной русской локализации нет? Сидеть со смартфоном в руках и переводить экран через Google Переводчик - удовольствие сомнительное. Переключаться по Alt+Tab в браузер каждые две минуты - ломает всё погружение.

Посмотрев на существующие экранные переводчики, я понял, что они либо перегружены лишним функционалом, либо просят денег, либо просто неудобно сворачивают игру. В итоге я решил за пару вечеров собрать свой велосипед на Python: легковесную утилиту, которая по горячей клавише делает скриншот области, распознает текст, переводит его и выводит в красивом, прозрачном для кликов оверлее прямо поверх игры.

Скрытый текст

На тот момент я еще не знал куда я вообще лезу и лучше бы не знал

В этой статье я расскажу, как устроен проект, с какими болями Windows API пришлось столкнуться и как заставить графическое окно пропускать сквозь себя клики мыши.

Из чего собирался велосипед

Мне нужен был быстрый MVP, поэтому выбор пал на Python. Архитектура приложения состоит из четырех простых шагов: Захват экранаРаспознавание (OCR)ПереводВывод на экран.
Для реализации этого мини-конвейера я выбрал следующие библиотеки:

  • MSS (Multiple Screen Shots): Очень быстрая библиотека для создания скриншотов. В отличие от стандартного PIL, она делает снимки экрана за считанные миллисекунды, что критично для динамики.

  • EasyOCR: Готовый движок для распознавания текста на базе PyTorch. Почему не Tesseract? EasyOCR из коробки гораздо лучше справляется со сложными игровыми шрифтами и стилизованным текстом новелл прямо на локальной машине.

  • Deep Translator: Простая обертка для интеграции с переводчиками. Для первой версии я взял интеграцию с Google Translate (работает бесплатно и без ключей API).

  • Tkinter + ctypes (Win32 API): Стандартный GUI-движок Python для создания окна и низкоуровневая магия Windows для создания того самого «игрового оверлея».

Главная техническая боль: ограничения полноэкранного режима и магия Win32

Изначально я целился в перевод абсолютно любых игр, но столкнулся с суровой реальностью: в полноценном Fullscreen-режиме стандартные окна Windows поверх неё просто не отображаются.

Я так и не смог добиться адекватной работы приложения в «тяжелых» полноэкранных 3D-играх — в целом оно и понятно, ведь проект собран на коленке за один вечер. Но всё же я получил результат, который меня полностью устроил. Если рассматривать стандартную работу за ПК и использование различных программ, у которых не всегда есть русская локализация, то утилита показывает себя отлично, а главное - удобно. Запустил нужную прогу на английском, нажал хоткей, выделил текст и через 2-3 секунды получил перевод прямо перед глазами.

Чтобы оверлей работал максимально бесшовно в среде Windows (и в играх, запущенных в оконном режиме), пришлось подключить ctypes и залезть в дебри Windows API (user32.dll). Обычное окно Tkinter при клике по нему забирает фокус, из-за чего рабочая программа может свернуться или стать неактивной.

Нам нужно было задать окну специфические расширенные стили (Extended Window Styles) - WS_EX_TRANSPARENT и WS_EX_LAYERED, чтобы сделать его «призраком», пропускающим сквозь себя клики:

import tkinter as tk
import ctypes

root = tk.Tk()
# Делаем окно поверх всех остальных
root.attributes("-topmost", True)
# Убираем рамки и заголовок окна
root.overrideredirect(True)

# Получаем дескриптор окна (HWND) через Win32 API
hwnd = ctypes.windll.user32.GetParent(root.winfo_id())

# Достаем текущие стили окна
style = ctypes.windll.user32.GetWindowLongW(hwnd, -20) # -20 это GWL_EXSTYLE

# Добавляем флаги:
# WS_EX_LAYERED (0x80000) — для поддержки прозрачности
# WS_EX_TRANSPARENT (0x20) — заставляет окно игнорировать клики мыши
style |= 0x80000 | 0x20

# Применяем новые стили обратно к окну
ctypes.windll.user32.SetWindowLongW(hwnd, -20, style)

Теперь окно физически отображается на экране, но операционная система считает его прозрачным для мыши. Вы можете кликать прямо по тексту перевода, а клик будет уходить в приложение на заднем плане. Фокус не теряется, рабочий процесс не прерывается.

Честно про минусы и костыли

Так как это MVP, у текущей реализации есть свои компромиссы, о которых стоит сказать честно:

  1. Размер сборки. Когда я упаковал проект в один независимый .exe файл через PyInstaller, его вес составил порядка 250 МБ. Это плата за локальный EasyOCR, так как внутрь исполняемого файла упаковываются веса нейросети и библиотеки для работы с графикой.

  2. Зависимость от сети для перевода. Пока распознавание работает локально, сам перевод держится на бесплатном API Google Translate. Если упадет интернет — перевод пропадет. В будущем планирую добавить полностью офлайновые локальные модели перевода.

Как попробовать и планы на будущее

Проект полностью открытый. Если вы хотите посмотреть исходный код, предложить свой пул-реквест или просто скачать готовый собранный .exe файл и запустить его без установки Python, заглядывайте в мой репозиторий:

👉 Ссылка на репозиторий проекта на GitHub

В планах:

  • Добавить GUI-меню для выбора языков (сейчас зашито распознавание английского и перевод на русский).

  • Реализовать историю переводов в отдельном логе.

  • Добавить несколько OCR и дать пользователю выбор

  • Поработать над дизайном самого оверлея (сделать красивые скругленные углы и кастомные шрифты).

  • Локализовать на другие языки

Буду рад здоровой критике, советам по оптимизации Win32 API и вашим идеям! Какими экранными переводчиками пользуетесь вы и чего вам в них не хватает?