惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

M
MIT News - Artificial intelligence
IT之家
IT之家
WordPress大学
WordPress大学
Last Week in AI
Last Week in AI
P
Palo Alto Networks Blog
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Vercel News
Vercel News
V
Visual Studio Blog
I
Intezer
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
The Hacker News
The Hacker News
H
Help Net Security
B
Blog
人人都是产品经理
人人都是产品经理
Recent Announcements
Recent Announcements
博客园 - 聂微东
GbyAI
GbyAI
S
Securelist
T
Threat Research - Cisco Blogs
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
P
Proofpoint News Feed
PCI Perspectives
PCI Perspectives
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Hacker News: Ask HN
Hacker News: Ask HN
SecWiki News
SecWiki News
P
Proofpoint News Feed
W
WeLiveSecurity
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
C
Cyber Attacks, Cyber Crime and Cyber Security
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
TaoSecurity Blog
TaoSecurity Blog
Recent Commits to openclaw:main
Recent Commits to openclaw:main
C
Check Point Blog
T
Troy Hunt's Blog
博客园 - 司徒正美
C
Cisco Blogs
Microsoft Security Blog
Microsoft Security Blog
Martin Fowler
Martin Fowler
H
Hackread – Cybersecurity News, Data Breaches, AI and More
Webroot Blog
Webroot Blog
T
Tenable Blog
F
Full Disclosure
Jina AI
Jina AI
N
News and Events Feed by Topic
罗磊的独立博客
宝玉的分享
宝玉的分享
F
Fortinet All Blogs
Recorded Future
Recorded Future
The Last Watchdog
The Last Watchdog
博客园 - 【当耐特】

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Как я случайно открыл функцию активации с багом, побеждающую Swish
Mixaer2 · 2026-06-17 · via Все публикации подряд на Хабре

Простой

2 мин

169

Началось всё с того, что мне было нечем заняться, и я баловался с языковой моделью, мучая её всякими разными вопросами по ML. В какой-то момент дело дошло до функций активации — сначала прошлись по уже известным, а затем и до ещё непроверенных. Так и появилась LLA — функция активации, являющаяся центральным элементом всей этой истории.

Формула у неё довольно простая:

\text{LLA}(x) = x + \ln(\|x\| + 1)

Да-да, всего лишь один натуральный логарифм, один модуль и два сложения. Отсюда и название — Log-Linear Activation. Но, тем не менее, мне показалось, что у этой функции есть большой потенциал. Поэтому бедному ИИ пришлось не только меня развлекать, но и писать мне код на Python, чтобы я проверил, действительно ли так хороша LLA. Однако я, как абсолютный хардкорщик, не имею никакого компьютера и запускать код могу только в Pydroid. И, понятное дело, платить за библиотеки я не собирался, поэтому языковая модель переписала мне код на чистом NumPy и встроенных модулях. Немного доработок и исправлений багов и вот, у меня на руках готовый инструмент для тестирования своей функции активации. Задачец сетей было аппроксимировать синусоиду.

Запустил, и знатно охренел. Моя функция училась, хотя и скакала, в то время как конкуренты (ReLU и сигмоида) практически не учились. Спустя несколько тестов с другими параметрами результат подтвердился — моя функция отлично себя чувствует на глубоких сетях, в то время как стандартные функции просто умирают. ИИ улучшил код: добавил предварительную остановку и замер времени, заодно заменив неудачных конкурентов на Swish. И снова полный разгром — swish вырубило из-за ранней остановки, ведь она совершенно не училась, в то время как LLA продолжала учиться и понизила лосс (MSE) до ~0.45. Провёл десятки разных тестов — и всё равно LLA каждый раз либо побеждала Swish, либо оставалась в ничьей. Было ясно одно: LLA прекрасно работает в любых условиях, в то время как все стандартные функции активации требуют особых условий.

Я уже подумывал о том, чтобы куда-то выложить результаты своих исследований. Решил перед этим проверить на какой-нибудь серьёзной задаче, и выбор пал на CIFAR-10. Решил переключиться на другого ИИ — говорят, он пишет код лучше, чем тот, которого я использовал изначально. Я показал ему формулы своей функции и её производной из прошлого кода.

Он же донёс до меня откровение: это неправильная производная. В коде стояла вот эта:

\dfrac{d}{dx}\text{LLA}(x) = 1 + \frac{1}{\|x\|+1}

А правильная — вот эта:

\dfrac{d}{dx}\text{LLA}(x) = 1 + \frac{\text{sign}(x)}{\|x\|+1}

Сказать, что я охренел — это ничего не сказать. Затем шок постепенно начал переходить в радость — потому что если уж функция с неправильной производной уничтожала всех конкурентов, то с правильной наверняка будет ещё лучше. Но оказалось, что всё вовсе наоборот — неправильная производная оказалась намного лучше и в аппроксимации синусоиды, и в классификации картинок, пусть и только на глубоких сетях. Стало понятно, почему — неправильная производная никогда не падает ниже единицы (всегда от 1 до 2). У неё просто нет проблемы затухающих градиентов как таковой, потому «бракованная» производная намного лучше правильной на глубоких сетях. Кроме того, ряд экспериментов подтвердил, что феноменальная устойчивость к бутылочным горлышкам — также заслуга неправильной производной.

Вот ссылка на репозиторий в GitHub: тык. Там код, при помощи которого я сравнивал Swish и LLA на CIFAR-10. Он имеет удобные настройки для ваших экспериментов. Надеюсь, там нет серьёзных багов :D