Open-Source инструмент для автоматического перевода книг

Я перевел учебник по химии - OpenStax «Chemistry: Atoms First 2e», состоящий из 1200+ страниц: https://viacheslavsysoev.github.io/chemistry-atoms-first-russian/

Знание, к которому есть лицензия, но нет языка — это знание, к которому нет доступа.

У меня было две проблемы.

Подписка на Claude с увеличенными лимитами, которые я не успевал использовать.
Языковой барьер, который мешал мне читать книги, которые меня интересуют.

Знание лучших университетов мира формально доступно любому. Однако, между знанием и человеком стоит языковой барьер, и для огромной части мира он непреодолим. Школьник из посёлка с английским на тройку не сядет читать 1200-страничный учебник на чужом языке. Не потому, что глупый — а потому что когнитивная нагрузка двойного перевода делает обучение крайне сложным.

Логично предположить, что в эпоху, когда нейросеть сдаёт экзамены по медицине, задача «перевести книгу» решена. Я пошёл искать готовые сервисы.

Нашёл десяток. Все платные. Ладно, за платное обычно дают качество.

Меня в тот момент интересовала одна книжка. На русском её не было, а читать в оригинале не хотелось. Я решил заплатил неприличные деньги за автоперевод и получил PDF, в котором:

Терминология плавала: «активация» в третьей главе становилась «возбуждением» в седьмой.
Формулы стали бессмысленными надписями (сравнил с оригиналом)
Подписи к рисункам оказались посреди текста. Ссылки «см. рис. 4.2» вели в никуда.
Логики между разделами не было: ощущение, что каждый абзац переводился изолированно гугл переводчиком.

По этой книге было невозможно учиться. Я заплатил за машинный мусор в красивой обложке. И за это просят от 30 до 300 долларов.

И тут две мои проблемы сложились в одну. У меня есть простаивающие лимиты на сильной модели. И есть боль от того, что задача, которую эта модель обязана решать на современном уровне, рынком решается отвратительно — потому что у платных сервисов нет стимулов делать хорошо. Их главное достоинство - перевод от 2ух минут до 2ух часов.

Эта картина мне что-то напомнила. В 1983 году Ричард Столман увидел мир, в котором всё ПО становилось проприетарным, и сел писать GNU.

Я не Столман. Но логика та же: если рынок предлагает только плохие проприетарные решения задачи — нужно сделать открытое решение.

Я хочу построить open-source инфраструктуру автоматического перевода книг, удовлетворяющую трём условиям:

Бесплатна. Клонируешь репозиторий, запускаешь локально или в подписке на LLM, которая у тебя уже есть. Без посредников.
Качество, по которому можно учиться. С формулами, терминологией, ссылками, иллюстрациями.
Обновляемая. Выходит второе издание — перегоняем. Книга — живой документ.

Я обкатал пайплайн на OpenStax «Chemistry: Atoms First 2e» — 1200 страниц, 21 глава, ~200 разделов с формулами и иллюстрациями. Лицензия CC BY-NC-SA 4.0.

Технические учебники — худший случай для перевода, и именно поэтому правильный полигон. Чтобы правильно перевести такую книгу, человек должен быть экспертом (1) в области знаний этой книги, (2) в области языка, на котором эта книга написана, и (3) в области языка, на который переводит. Автоперевод в таких книгах сложен, потому что:

Терминология должна быть единой на 1000+ страниц.
Формулы нельзя пересказать своими словами.
Структура линейна: косяк в 4.2 поедет в 7.3 и дальше.

Проблемы, которые встретились:

Чтение формул ненадёжно. Копируя текст из PDF документа формулы наверняка потеряют смысл.
Привязка иллюстраций к тексту. pdfimages извлекает картинки без подписей. Сопоставить «img-432 = Figure 7.5» — отдельная задача, иногда привязка съезжает.
Стилистический дрейф. Даже с гайдом тон чуть гуляет между разделами.
Стоимость. Мне пришлось потратить 6 пятичасовых лимитов Claude Opus 4.7 (по подписке с x5 лимитами). Если бы это решалось API запросами, то вышло бы, наверное, больше денег.
Я не химик. Текст читается, терминология единообразна, формулы валидны, структура совпадает с оригиналом. Но смысловую точность в нюансах без живого химика не гарантирую.

Итоговый алгоритм:

Шаг 1. Три экстракции из PDF.

pdftotext не умеет в химию: H₂SO₄ превращается в H 2 SO 4. Поэтому из одного PDF делается три источника утилитами poppler-utils:

# Текст, который будет использован для перевода
pdftotext -layout chemistry-atoms-first-2e.pdf original_text.txt

# Исходные страницы, превращённые в PNG картинки, чтобы понять, как разместить таблицу или картинку
pdftoppm -png -r 200 chemistry-atoms-first-2e.pdf pages/page

# Исходные картинки, использованные в книге, чтобы не вырезать их ножницами
pdfimages -all chemistry-atoms-first-2e.pdf images/img

Текст — для прозы. PNG страниц — то, на что модель смотрит глазами через multimodal, когда в расшифровке мусор. Изображения — для привязки к рисункам.

Шаг 2. Декомпозиция. Одна большая LLM-сессия не работает: контекст переполняется, тон плывёт, терминология расходится. Поэтому много маленьких независимых сессий, координируемых через файловую систему.

Один раздел учебника (5–15 страниц) = один запуск агента. Контекст: гайд, глоссарий, диапазон страниц, PNG.

Шаг 3. Когерентность через глоссарий. Главное ноу-хау против разнобоя — растущий GLOSSARY.md. Перед использованием нового термина агент смотрит туда. Если термина нет — добавляет. Следующий агент уже видит решение. Терминология сходится сама собой.

Шаг 4. State machine. Каждый раздел проходит pending → draft → review → done. Агенты независимо друг от друга что-то решили или ошиблись? Это обнаружится на ревью. Которое тоже сделает нейросеть. Человеку только в конце дадим уже максимально логичный вариант на проверку.

Шаг 5. Рендер. Статический сайт на MkDocs Material + MathJax/mhchem. Деплой — GitHub Pages. На каждой странице кнопка «Редактировать» открывает Markdown в GitHub-редакторе: правка через PR.

Уточнение:

Разговор шел про Open-Source, но используется Claude. Почему?

Локальные LLM наверняка способны проделать тот же самый труд, однако у меня нет топовых видеокарт, точно так же, как и сотен тысяч рублей на их покупку.

Подписка выглядит более дешевым вариантом. Покупая Claude, наравне с их моделями мы получаем и их вычислительные мощности. А эти мощности не получится вынести в "open-source".

Заключение

Если вы химик, преподаватель, аспирант, толковый старшекурсник или просто интересующийся — зайдите и потыкайте. Особенно полезен взгляд на терминологию, формулировки законов и сравнение с оригиналом. На каждой странице сайта — кнопка «Редактировать»: правка через pull request за три клика.

Если бы у вас в руках появился такой инструмент — работающий, бесплатный, открытый — какую книгу вы бы прогнали первой? Что из непереведённого вам больно не иметь под рукой? Для следующего перевод я могу выбрать именно вашу книгу.

## Ссылки

- 📘 Оригинал книги: Chemistry: Atoms First 2e, https://openstax.org/details/books/chemistry-atoms-first-2e

- ⚖️ Лицензия: CC BY-NC-SA 4.0, https://creativecommons.org/licenses/by-nc-sa/4.0

- 🌐 Сайт перевода: https://viacheslavsysoev.github.io/chemistry-atoms-first-russian

- 📦 Репозиторий: https://github.com/ViacheslavSysoev/chemistry-atoms-first-russian

- 🪄 Проект автоперевода: https://github.com/ViacheslavSysoev/perevodnik

推荐订阅源

Все публикации подряд на Хабре

Заключение