Я перевел учебник по химии - OpenStax «Chemistry: Atoms First 2e», состоящий из 1200+ страниц: https://viacheslavsysoev.github.io/chemistry-atoms-first-russian/
Знание, к которому есть лицензия, но нет языка — это знание, к которому нет доступа.
У меня было две проблемы.
Подписка на Claude с увеличенными лимитами, которые я не успевал использовать.
Языковой барьер, который мешал мне читать книги, которые меня интересуют.
Знание лучших университетов мира формально доступно любому. Однако, между знанием и человеком стоит языковой барьер, и для огромной части мира он непреодолим. Школьник из посёлка с английским на тройку не сядет читать 1200-страничный учебник на чужом языке. Не потому, что глупый — а потому что когнитивная нагрузка двойного перевода делает обучение крайне сложным.
Логично предположить, что в эпоху, когда нейросеть сдаёт экзамены по медицине, задача «перевести книгу» решена. Я пошёл искать готовые сервисы.
Нашёл десяток. Все платные. Ладно, за платное обычно дают качество.
Меня в тот момент интересовала одна книжка. На русском её не было, а читать в оригинале не хотелось. Я решил заплатил неприличные деньги за автоперевод и получил PDF, в котором:
Терминология плавала: «активация» в третьей главе становилась «возбуждением» в седьмой.
Формулы стали бессмысленными надписями (сравнил с оригиналом)
Подписи к рисункам оказались посреди текста. Ссылки «см. рис. 4.2» вели в никуда.
Логики между разделами не было: ощущение, что каждый абзац переводился изолированно гугл переводчиком.
По этой книге было невозможно учиться. Я заплатил за машинный мусор в красивой обложке. И за это просят от 30 до 300 долларов.
И тут две мои проблемы сложились в одну. У меня есть простаивающие лимиты на сильной модели. И есть боль от того, что задача, которую эта модель обязана решать на современном уровне, рынком решается отвратительно — потому что у платных сервисов нет стимулов делать хорошо. Их главное достоинство - перевод от 2ух минут до 2ух часов.
Эта картина мне что-то напомнила. В 1983 году Ричард Столман увидел мир, в котором всё ПО становилось проприетарным, и сел писать GNU.
Я не Столман. Но логика та же: если рынок предлагает только плохие проприетарные решения задачи — нужно сделать открытое решение.
Я хочу построить open-source инфраструктуру автоматического перевода книг, удовлетворяющую трём условиям:
Бесплатна. Клонируешь репозиторий, запускаешь локально или в подписке на LLM, которая у тебя уже есть. Без посредников.
Качество, по которому можно учиться. С формулами, терминологией, ссылками, иллюстрациями.
Обновляемая. Выходит второе издание — перегоняем. Книга — живой документ.
Я обкатал пайплайн на OpenStax «Chemistry: Atoms First 2e» — 1200 страниц, 21 глава, ~200 разделов с формулами и иллюстрациями. Лицензия CC BY-NC-SA 4.0.
Технические учебники — худший случай для перевода, и именно поэтому правильный полигон. Чтобы правильно перевести такую книгу, человек должен быть экспертом (1) в области знаний этой книги, (2) в области языка, на котором эта книга написана, и (3) в области языка, на который переводит. Автоперевод в таких книгах сложен, потому что:
Терминология должна быть единой на 1000+ страниц.
Формулы нельзя пересказать своими словами.
Структура линейна: косяк в 4.2 поедет в 7.3 и дальше.
Проблемы, которые встретились:
Чтение формул ненадёжно. Копируя текст из PDF документа формулы наверняка потеряют смысл.
Привязка иллюстраций к тексту.
pdfimagesизвлекает картинки без подписей. Сопоставить «img-432 = Figure 7.5» — отдельная задача, иногда привязка съезжает.Стилистический дрейф. Даже с гайдом тон чуть гуляет между разделами.
Стоимость. Мне пришлось потратить 6 пятичасовых лимитов Claude Opus 4.7 (по подписке с x5 лимитами). Если бы это решалось API запросами, то вышло бы, наверное, больше денег.
Я не химик. Текст читается, терминология единообразна, формулы валидны, структура совпадает с оригиналом. Но смысловую точность в нюансах без живого химика не гарантирую.
Итоговый алгоритм:

Шаг 1. Три экстракции из PDF.
pdftotext не умеет в химию: H₂SO₄ превращается в H 2 SO 4. Поэтому из одного PDF делается три источника утилитами poppler-utils:
# Текст, который будет использован для перевода
pdftotext -layout chemistry-atoms-first-2e.pdf original_text.txt
# Исходные страницы, превращённые в PNG картинки, чтобы понять, как разместить таблицу или картинку
pdftoppm -png -r 200 chemistry-atoms-first-2e.pdf pages/page
# Исходные картинки, использованные в книге, чтобы не вырезать их ножницами
pdfimages -all chemistry-atoms-first-2e.pdf images/imgТекст — для прозы. PNG страниц — то, на что модель смотрит глазами через multimodal, когда в расшифровке мусор. Изображения — для привязки к рисункам.
Шаг 2. Декомпозиция. Одна большая LLM-сессия не работает: контекст переполняется, тон плывёт, терминология расходится. Поэтому много маленьких независимых сессий, координируемых через файловую систему.
Один раздел учебника (5–15 страниц) = один запуск агента. Контекст: гайд, глоссарий, диапазон страниц, PNG.
Шаг 3. Когерентность через глоссарий. Главное ноу-хау против разнобоя — растущий GLOSSARY.md. Перед использованием нового термина агент смотрит туда. Если термина нет — добавляет. Следующий агент уже видит решение. Терминология сходится сама собой.
Шаг 4. State machine. Каждый раздел проходит pending → draft → review → done. Агенты независимо друг от друга что-то решили или ошиблись? Это обнаружится на ревью. Которое тоже сделает нейросеть. Человеку только в конце дадим уже максимально логичный вариант на проверку.
Шаг 5. Рендер. Статический сайт на MkDocs Material + MathJax/mhchem. Деплой — GitHub Pages. На каждой странице кнопка «Редактировать» открывает Markdown в GitHub-редакторе: правка через PR.
Уточнение:
Разговор шел про Open-Source, но используется Claude. Почему?
Локальные LLM наверняка способны проделать тот же самый труд, однако у меня нет топовых видеокарт, точно так же, как и сотен тысяч рублей на их покупку.
Подписка выглядит более дешевым вариантом. Покупая Claude, наравне с их моделями мы получаем и их вычислительные мощности. А эти мощности не получится вынести в "open-source".
Заключение
Если вы химик, преподаватель, аспирант, толковый старшекурсник или просто интересующийся — зайдите и потыкайте. Особенно полезен взгляд на терминологию, формулировки законов и сравнение с оригиналом. На каждой странице сайта — кнопка «Редактировать»: правка через pull request за три клика.
Если бы у вас в руках появился такой инструмент — работающий, бесплатный, открытый — какую книгу вы бы прогнали первой? Что из непереведённого вам больно не иметь под рукой? Для следующего перевод я могу выбрать именно вашу книгу.
## Ссылки
- 📘 Оригинал книги: [Chemistry: Atoms First 2e](https://openstax.org/details/books/chemistry-atoms-first-2e)
- ⚖️ Лицензия: [CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/)
- 🌐 Сайт перевода: https://viacheslavsysoev.github.io/chemistry-atoms-first-russian/
- 📦 Репозиторий: https://github.com/ViacheslavSysoev/chemistry-atoms-first-russian
- 🪄 Проект автоперевода: (https://github.com/ViacheslavSysoev/perevodnik)

















