惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Google DeepMind News
Google DeepMind News
F
Fortinet All Blogs
阮一峰的网络日志
阮一峰的网络日志
Apple Machine Learning Research
Apple Machine Learning Research
爱范儿
爱范儿
WordPress大学
WordPress大学
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
J
Java Code Geeks
罗磊的独立博客
S
SegmentFault 最新的问题
V
V2EX
V
Visual Studio Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
美团技术团队
博客园 - 三生石上(FineUI控件)
Stack Overflow Blog
Stack Overflow Blog
Y
Y Combinator Blog
MyScale Blog
MyScale Blog
D
Docker
Google DeepMind News
Google DeepMind News
Blog — PlanetScale
Blog — PlanetScale
M
Microsoft Research Blog - Microsoft Research
Martin Fowler
Martin Fowler
S
Secure Thoughts
B
Blog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Recent Announcements
Recent Announcements
MongoDB | Blog
MongoDB | Blog
C
Cisco Blogs
C
CERT Recently Published Vulnerability Notes
T
True Tiger Recordings
GbyAI
GbyAI
P
Proofpoint News Feed
P
Privacy International News Feed
Jina AI
Jina AI
The Cloudflare Blog
I
Intezer
AWS News Blog
AWS News Blog
Hacker News - Newest:
Hacker News - Newest: "LLM"
S
Security Archives - TechRepublic
NISL@THU
NISL@THU
The Register - Security
The Register - Security
Recent Commits to openclaw:main
Recent Commits to openclaw:main
P
Palo Alto Networks Blog
S
Schneier on Security
L
LINUX DO - 热门话题
C
CXSECURITY Database RSS Feed - CXSecurity.com
Security Latest
Security Latest
C
Cybersecurity and Infrastructure Security Agency CISA

Все публикации подряд на Хабре

Как проектировать ИИ-инструменты, которые делают пользователей лучше «Раньше хотел каждый, сейчас и бесплатно не надо»: гаджеты, про которые мы все забыли ИИ-агенты в бизнесе: почему 80% компаний увольняют людей, но не получают ROI Как я строил ИИ-стартап, или Новые архитектурные риски 2026 4 интересных парадокса, рождающих жаркие дискуссии Рабочее место не-вайбкодера: настраиваем harness Когнитивный инжиниринг Feature Based Clean Architecture. Часть 1: Эволюция NestJS-приложения в неподдерживаемое состояние Как мы перестали бояться «пустых охватов» и сделали инфлюенс-маркетинг управляемым каналом роста Подключили B2B email-платформу к голосовым ассистентам через MCP. Архитектура, код, где ломается [Перевод] Почему AI-агенты ломаются на длинных задачах — и как обвязка помогает им дописывать приложения Облачно, возможны нейросети: кризис датасетов и ахиллесова пята систем машинного зрения — DIY-чтение на выходные Спустя 5 лет и $5 миллионов: почему создание нового языка для веб-разработки оказалось ошибкой Безопасная песочница Облачная LLM на 16 ГБ VRAM — часть 2: LangGraph Server, LangSmith и SDK Современный SSH-клиент для MS-DOS Как продвигать агентство недвижимости: от вывески до прямых эфиров MCP для GitHub + GitLab: инженерный гайд 2026 Вы платите OpenAI $20 в месяц, а он зарабатывает на вас ещё $100 млн за полтора месяца. И это только начало ИИ забирает работу «белых воротничков»: чему учить детей, чтобы выжить в будущем Практический ИИ-агент Python: LangGraph + Qdrant Как я делал ping и traceroute на iOS без entitlements — и почему это оказалось проще, чем UMP-консент для AdMob 4 MVP за 4 месяца, 30 холодных DM, 1 регистрация: building in public по-русски VPS-бастион: доступ к домашнему серверу без белого IP Kampus AI — нейросеть для генерации учебных работ для студентов и школьников Игры, помогающие продавать — примеры интересных рекламных акций с видеоиграми €500 в Telegram Ads принесли сделку на 350 000 ₽. Разбор B2B-кампании Чтение на выходные: «Разработка игр и теория развлечений» Рафа Костера Личный архив: сбор, бэкап, таймлайн фотографий INFOSTART TECH EVENT или INFOSTART A&PM EVENT — как понять, куда вам нужнее? Peer testing на основе Закона Линуса Релиз GitLab 19.0: ИИ-оркестрация, которая наконец-то догнала темп написания кода Как бизнесу оценить готовность к аттестации по новому Приказу ФСТЭК № 117 Технический гайд по сторис – часть 4: как мы добавили видео формат Представительство в арбитражном процессе: правовые различия между внешним защитником и инхаусом «Где новые фичи?» — Как AI-миграция легаси вернет IT-бюджет бизнесу Что нужно знать работнику про увольнение Новые требования Москвы к ЦИМ для АГР: готовый инструмент для проектировщиков в nanoCAD BIM Строительство WireGuard: простота и надёжность современного VPN-туннеля или секретное рукопожатие в тёмной комнате Выйдет ли GTA 6 в 2026 году, и чего ждать от игры Как меня назвали «невовлечённым», а я нашёл офшоры на Кипре Как LLM научила рекомендательную модель видеть больше, чем историю взаимодействий От хаоса к экосистеме: Модель зрелости комьюнити в бизнесе Свет, тьма, VEML7700 и Python Сказ о том, как мы процессы разработки в GRI меняли. Часть 2 Майский «В тренде VM»: громкие уязвимости в Linux, ActiveMQ, SharePoint и Acrobat Reader Статический анализ, заряженный ИИ: как LLM ищут уязвимости в коде и где их границы Блок “Процессы” и почему мы называем его нашим мини-n8n Как поменялся рынок интернет-рекламы: сравнение первых кварталов 2025 и 2026 годов: исследование click.ru Мониторинг Kerio Connect через Zabbix 7: разбор шаблона без агентов и regex по DAT 671 Allow в Claude Code за день: как родился сетап Spec-build 3 известные интересные задачи на логику Как айтишнику позаботиться о менталке и не перерабатывать OpenAI vs Anthropic: битва экс-коллег за корпоративного клиента и $1 трлн на IPO SEO для интернет-магазина в 2026: что поменялось и как с этим работать Сможете ли вы спроектировать Maven‑монорепозиторий для 5 микросервисов? 6 неудобных вопросов про американское произношение, которые айтишники боятся задать Неожиданная встреча: теория графов вновь помогла решить проблему в анализе Фурье Иллюзия трансформации: почему компании платят за спектакль вместо изменений AMD представила Ryzen 9 PRO 9965X3D и еще 5 процессоров, которые пойдут далеко не всем История IDE в Google Первые отзывы на новинки о System Design Влияние параметра planner_upper_limit_estimation на планы выполнения и профиль нагрузки PostgreSQL при использовании 1C Границы 100% разработки с агентами Быстрый OCR на основе Paddle Дооснащение любительской электровакуумной мастерской. Вакуумметр, течеискатель, полярископ Mythos: модель, о которой Anthropic не говорит. Реверс по жертвам — от 27-летней дыры в OpenBSD до побега из песочницы Как использовать Qwen3.7-Max и Grok Build 0.1 для ИИ-агентов в России Suricata IPS NFQueue with nDPI. Часть VI Важные изменения в защите информации в России: что нового? В чем секрет достоверного замедления биологического старения? Вредное ускорение: Умный светофор на перегруженных перекрестках Как сисадмин написал свою библиотеку для Jira на Ruby: история Rujira Сломанный найм: почему рынок труда превратился в казино и что с этим делать Физики нашли свидетельства того, что Вселенная не идеально однородна, вопреки стандартной модели космологии Вопросы на собеседованиях, к которым лучше готовиться заранее Что детектировал детектор таксофонных карт? Как работают выделенные ядра в облачном сервере: от планировщика Linux до тестов производительности Математика кластеров: разбираемся в умной кластеризации данных на примере нашей системы поиска аномалий в логах. Часть 1 Ответы с «деврел‑супервизии», вопрос седьмой: выгорание, когда от вас ждут вечный драйв и креатив История одного // todo, который ждал своего часа пол года Если пропустили Claude последние 3 месяца: топ-5 фич с юзкейсами и история про $400K в Bitcoin Проектируем с нуля калькулятор на FPGA. Части 4 и 5: Фреймворк и оборудование Почему 10× от AI могут дать только лояльные сотрудники Speech-to-LaTeX: распознавание математических выражений и предложений в LaTeX Что внутри портфолио продуктовых и ux/ui-дизайнеров из Т-Банка, Додо, Figma, Альфы, Revolut? Чем заменить Excel в 2026 году: обзор российского ПО и других аналогов Как Rust обрабатывает repr и ABI на границе с C: что ломается и почему 5 промтов, чтобы подготовить презентацию в нейросетях через SpeShu.AI Каггл «200 ёлочек 2025»: призы уже раздали, но мы и за идею задачу укладки порешаем. Часть 1 Как ФНС стала data-driven за 5 лет: минус треть штата, плюс 20 новых цифровых сервисов Как настроить кастомную авторизацию в FESB и сохранить стандартный заголовок Как CISO защищаются от прошлого, игнорируя будущее Заменит ли ИИ разработчиков — и что с этим делать компании Влияние AI на позиции QA в 2026 году Я устал гадать, мне лучше или хуже, и сделал систему непрерывного измерения температуры Исходный код Jedi Academy переполнен яростными комментариями разработчиков ИИ существовал до компьютеров: Крышесносные примеры, часть 2 Тупик на игровом поле: почему образовательные и научные настольные игры в 2026 году сжимаются Ускоряет ли нас AI-coding или просто удорожает?
Тестирование случайности самодельного ГПСЧ и сравнение с эталонами
d_n_trunov · 2026-05-18 · via Все публикации подряд на Хабре

Тестирование случайности самодельного ГПСЧ и сравнение с эталонами

Время на прочтение5 мин

Охват и читатели34

Самодельный генератор псевдослучайных чисел (ГПСЧ) стал побочным продуктом работы над любительским шифром, а шифры для меня всего лишь хобби и поле для творчества и экспериментов. Поскольку в своём шифре я делал упор на заранее непредсказуемые динамические связи, которые зависят от промежуточных состояний шифра, сама собой напросилась идея о применении этой непредсказуемости для генерации псевдослучайных чисел. Нужно было лишь оценить степень случайности полученного генератора. Как выполнялась оценка, что показали тесты NIST и сравнение с известными «эталонами» — далее в статье.

Первые тесты и их результаты

Первичные проверки случайности своего генератора я выполнял с помощью нескольких простых тестов, но они не давали полной картины и нужно было что-то более основательное. Выбор пал на комплекс из 15 тестов случайности NIST SP 800-22, а на GitHub нашлась подходящая реализация на Python без лишних зависимостей и необходимости установки: скачал, запустил и получил результат. Данные для анализа принимаются в виде файла, потому для проверки необходимо генерировать числа проверяемым ГПСЧ, сохранять их в файл и передавать этот файл тестирующей программе.

Сколько данных нужно для корректного анализа? Поиск выдал рекомендацию: минимум 1 млн бит. В описании к реализации тестов приводится пример анализа файлов с размером 1 Mibibit (= 131072 байта). Исходя из этого я решил взять близкий размер 1280000 бит (= 160 тыс байт), что составляет 20 тыс сгенерированных 64-битных чисел. Больше брать не стал, поскольку реализация тестов на Python довольно медленная и ждать тестирования слишком больших файлов пришлось бы довольно долго.

Итак, первый запуск: создаю массив на 20 тыс чисел, заполняю его с помощью своего генератора, сохраняю в файл и отправляю на тестирование. Немного жду, получаю результат и — о, чудо! — все тесты пройдены. Даже не верилось пройти тесты NIST с первого раза. Но ладно, для проверки генерирую ещё несколько файлов, запускаю тестирование и… для некоторых файлов обнаруживаю провалы в каком-то из 15 тестов (каждый раз в разном).

Примеры тестов с провалами (p-value <0.01)

Примеры тестов с провалами (p-value <0.01)

Из поиска: «вероятность того, что истинно случайная последовательность не пройдет конкретный тест (ложный провал), составляет 1% » и «поскольку пакет включает 15 различных тестов, общая вероятность того, что хотя бы один из них даст ложный провал для хорошего ГПСЧ теоретически может достигать ~14-15%». Значит, допустимо получить не более одного провала в тестах 6 независимых файлов, но я получал 2-3 провала на каждые 6 файлов. Это недостаток самого ГПСЧ или реализации тестов?

Тестирование шифра

Если ГПСЧ основан на шифре, то казалось логичным проверить «случайность» самого шифра: взять произвольный ключ, зашифровать заполненный нулями байтовый массив (160 тыс байт), сохранить в файл и выполнить тесты. И так несколько файлов с разными ключами. А результаты получились такие же: 2-3 провала на 6 файлов. Уже можно было признать, что проблема в самом шифре (и основанном на нём генераторе), но смущал факт, что чаще всего проваливался не какой-то один тест из 15, а каждый раз разный. Стали появляться сомнения в тестах, но вначале нужно было более тщательно проверить сам шифр.

Я взял несколько ключей, с которыми были провалы при шифровании нулей, и зашифровал этими ключами массивы, заполненные значениями 0x01, 0x02, 0xfe и 0xff. Получил много файлов: несколько для зашифрованных взятыми ключами единиц, несколько для зашифрованных двоек и т. д. Для всех файлов выполнил тесты и результаты опять не выявили какой-то закономерности: если зашифрованные конкретным ключом нули проваливают какой-то тест, то зашифрованные другие значения могли или пройти все 15 тестов NIST, или провалить какой-то другой из 15 (не тот, который проваливался на зашифрованных нулях).

Ещё раз взял те же «провальные» ключи и зашифровал ими нули, но в 10 раз больше — 1,6 млн байт вместо 160 тыс. Запустил тесты (это было долго) и снова часть файлов тесты полностью прошла, а в другой части провал по какому-то из тестов и опять не по тому, по которому проваливалась более короткая версия файла. Те же результаты, если поменять количество циклов шифрования (оно нефиксированное и легко меняется). По крайней мере, теперь можно осторожно допустить, что отдельные провалы появляются хаотично, а не выявляют какой-то явный недостаток шифра (или недостаток у шифра имеется, но проявляется локально на небольшом объёме данных).

Сравнение с «эталонами»

Пусть и хаотично, но собственные ГПСЧ и шифр проваливают тесты случайности NIST чаще приемлемого. А как пройдут те же тесты «эталоны» — проверенные генераторы и шифры? В качестве эталонного генератора был взят знаменитый Mersenne Twister (std::mt19937_64), а шифры под рукой оказались только в составе gpg (взял AES256, TWOFISH и GRASSHOPPER). Сгенерировал несколько файлов с помощью mt19937_64, а для шифров создавал заполненные нулями файлы и зашифровал их без сжатия с помощью gpg:

gpg -c --cipher-algo AES256 --compress-algo none File00.bin
gpg -c --cipher-algo TWOFISH --compress-algo none File10.bin
gpg -c --cipher-algo GRASSHOPPER --compress-algo none File20.bin

Техническую информацию (заголовки GPG) из файлов я удалять не стал, посчитав её влияние несущественным на фоне 160 тыс зашифрованных байтов. То есть, выполнял тесты зашифрованных файлов без какой-либо их модификации. На удивление сгенерированные с помощью mt19937_64 и (отдельно) зашифрованные с помощью gpg файлы показали приблизительно такие же результаты тестов: 2-3 провала на 6 файлов. Радует хотя бы то, что мои алгоритмы в этом смысле выглядят не хуже.

Завершающие тесты

Но всё же почему так много провалов при тестировании даже проверенных алгоритмов? Может, я выбрал не те алгоритмы? Тогда я решил выполнить более тщательное тестирование ещё одного эталона — данных из /dev/urandom. В этот раз я стал тщательно отмечать количество провалов по 15 тестам NIST для каждого из файлов и помещать их в таблицу, вычисляя также общий процент провалов. Заодно выполнил тесты для QrandomGenerator::global() и ещё раз для mt19937_64. Полученная таблица приведена ниже:

Алгоритм

Файлы 1-6

Файлы 7-12

Файлы 13-18

Провалы, %

/dev/urandom

0 0 0 0 0 0

0 0 0 1 0 2

1 0 1 0 0 1

2,22%

QRandomGenerator

0 0 0 0 1 3

0 0 1 0 0 0

0 0 0 0 2 0

2,59%

mt19937_64

0 0 0 0 0 0

0 0 0 0 0 0

0 1 0 0 0 0

0,37%

Магия? В этот раз mt19937_64 прошёл все тесты практически без единого провала, хотя в прежние запуски провалов было много (они точно были!), а «главный эталон» /dev/urandom провалил непозволительно много тестов. Возможно, для подобных тестов нужно намного больше файлов (50-100) или это должны были быть более длинные файлы (сотни миллионов байт вместо одного миллиона бит). Но главный для себя вывод я сделал: мои ГПСЧ и шифр проходят NIST SP 800-22 не хуже проверенных аналогов. В качестве подтверждения (и для сравнения с предыдущей таблицей) ниже приводится таблица провалов завершающих тестов своего ГПСЧ:

Алгоритм

Файлы 1-6

Файлы 7-12

Провалы, %

ГПСЧ

2 0 0 0 1 1

0 0 0 0 1 0

2,78%

ГПСЧ (дубль 2)

1 0 0 0 0 0

1 0 1 0 0 0

1,67%

ГПСЧ (дубль 3)

0 0 0 0 0 0

3 0 0 1 0 0

2,22%

ГПСЧ (быстрый)

0 0 0 0 0 0

1 1 0 0 0 1

1,67%

Сравнение скорости генерации

Упомянув в таблице «ГПСЧ (быстрый)» я имел в виду отдельный режим своего генератора, адаптированный для более быстрого вычисления, возможно, в ущерб качеству генерации. Однако, судя по результатам тестов, генерируемые в этом режиме числа не выглядят менее случайными. Но раз уж речь зашла о скорости, то было интересно сравнить оба режима между собой, а также с другими распространёнными генераторами.

Для сравнения скорости на C++ была написана программа, замеряющая время заполнения выбранными генераторами массива из 10 млн 64-битных чисел. Компиляция программы с оптимизациями (-O2). Чтение из /dev/urandom всего массива целиком, замер времени без учёта открытия и закрытия файла. Вызов getrandom() также для всего массива целиком (с флагом GRND_NONBLOCK). Типичные результаты приведены в таблице ниже (по возрастанию времени):

Алгоритм

Время, мс

Собственный ГПСЧ (быстрый)

106

std::mt19937_64

125

Собственный ГПСЧ (обычный)

194

getrandom()

360

/dev/urandom

362

QRandomGenerator::global()

428

QRandomGenerator::system()

8205

Заключение

Был соблазн сделать также подробное описание тестируемого генератора, но статья и так уже получилась достаточно длинной. Тем не менее, исходный код генератора на C++ доступен на GitFlic, а шифр, на котором генератор основан, описан в отдельной статье. А по результатам описанных тестов можно сделать следующие выводы:

  • тесты случайности NIST SP 800-22 могут давать ложные провалы даже для заведомо качественных ГПСЧ;

  • собственный ГПСЧ проходит данные тесты не хуже некоторых «эталонов»;

  • при этом, оба режима ГПСЧ имеют вполне неплохую скорость, которая для быстрого режима превосходит даже Mersenne Twister (mt19937_64).