慣性聚合 高效追讀感興趣之博客、新聞、科技資訊
閱原文 以慣性聚合開啟

推薦訂閱源

L
LangChain Blog
宝玉的分享
宝玉的分享
酷 壳 – CoolShell
酷 壳 – CoolShell
N
Netflix TechBlog - Medium
F
Fortinet All Blogs
T
Tailwind CSS Blog
Google DeepMind News
Google DeepMind News
Jina AI
Jina AI
J
Java Code Geeks
Recent Announcements
Recent Announcements
The Cloudflare Blog
D
DataBreaches.Net
Hugging Face - Blog
Hugging Face - Blog
WordPress大学
WordPress大学
Vercel News
Vercel News
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Microsoft Azure Blog
Microsoft Azure Blog
雷峰网
雷峰网
H
Help Net Security
博客园 - Franky
S
SegmentFault 最新的问题
T
The Blog of Author Tim Ferriss
博客园_首页
C
Check Point Blog
腾讯CDC
美团技术团队
Martin Fowler
Martin Fowler
The GitHub Blog
The GitHub Blog
M
MIT News - Artificial intelligence
Apple Machine Learning Research
Apple Machine Learning Research
P
Proofpoint News Feed
U
Unit 42
人人都是产品经理
人人都是产品经理
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
Engineering at Meta
Engineering at Meta
M
Microsoft Research Blog - Microsoft Research
阮一峰的网络日志
阮一峰的网络日志
G
Google Developers Blog
Stack Overflow Blog
Stack Overflow Blog
B
Blog
Last Week in AI
Last Week in AI
博客园 - 三生石上(FineUI控件)
博客园 - 聂微东
云风的 BLOG
云风的 BLOG
H
Hackread – Cybersecurity News, Data Breaches, AI and More
李成银的技术随笔
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - 叶小钗
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知

Все публикации подряд на Хабре

Как перестать путаться в IP-адресах серверов Сколько стоят ошибки в арбитраже: декомпозиция ценообразования на судебные услуги в Москве Разбираемся в ML без воды: от базы до Attention. Часть 4: kNN Vortex: фреймворк для тех, кого задолбала итальянская кухня в репозитории Использование тепла ЦОД в мире и РФ Часть 4. Скорость света — технические детали Не цитируй мне нейросеть Что сейчас с Project Loom? Примеры и код Рождённые в Сумерках Meta 1 мая показала как они хранят ключи от ваших бэкапов WhatsApp. Разбираю архитектуру и сравниваю Линт проектов: собираем ESLint, Prettier и Stylelint в один пакет Reasoning-модели сломали мой промпт-инжиниринг. Год переучиваюсь РБМК: enfant terrible Как я собеседую менеджеров AI-продуктов для крупного Enterprise Парадокс рынка труда: конкуренция выросла, но не везде, нанимать легче, но не везде Модификаторы в Blender: осваиваем Boolean «Бесплатно» — это красный флаг: почему мы доверяем не тем (опрос) Стратегия выживания в эпоху ИИ Новая теория обещает переписать фундамент всей математики MTP у Qwen3.6 в llama.cpp обещает ×2 по скорости. Я прогнал ту же модель через своего агента — и получил обратное [Перевод] Соль и перец в безопасности паролей Что такое «статьи-зомби» CodeGraph: граф кода для Claude Code вместо grep по файлам. Разбираю архитектуру и проверяю бенчмарки Мессенджер Ласточка. Часть 3 Google представила Gemini Omni — универсальную ИИ-модель. Роботы работают, счастлив человек Что у SpaceX с патентным портфелем перед IPO? Делегирование, которому можно научиться у промпт‑инженеров Feature Based Clean Architecture. Часть 5: Масштабирование FBCA и теоретико-графовый анализ зависимостей Настройка типизации формы React Hook Form (≥ v7.44.0) + Zod с разными входными и выходными типами Feature Based Clean Architecture. Часть 4: FBCA: формализация границ ответственности в NestJS-модуле Корпорация «Святые Технологии». Работа мечты (рассказ) CyLab Security Academy: как Carnegie Mellon превратила CTF в полноценную обучающую платформу Feature Based Clean Architecture. Часть 3: Архитектурный риск циклов в NestJS: ROI решений на горизонте пяти лет Домашний сервер без белого IP: безопасная публикация сервисов через VPS, обратный SSH-туннель и Caddy Почему не взлетели дирижабли? Часть 22: Митягина, Эйхенвальд и Ховрина, первый в истории женский экипаж дирижабля Китайцы ответили на H200 — обзор Zhenwu M890 от Alibaba Feature Based Clean Architecture. Часть 2: Декомпозиция на сервисы: анализ ограниченности подхода Лучшие игры для Steam Deck в 2026 году по мнению пользователей Обход блокировок внутри iOS-приложения: VLESS + Reality через sing-box, и грабли по дороге [Перевод] Любой пользователь интернета может позвонить в вашу дверь Новый экспериментальный препарат для похудения обеспечил резкое снижение веса Хром и скорость Провалила вайтборд, но прошла тестовое — как я делала задание для Т-Банка Космическая линза помогла Уэббу увидеть древнейшую галактику Вселенной Почему custom URI schemes в Telegram Mini Apps ведут себя по-разному на Android, iOS и Desktop Как я сократил рутину QA до пары кликов: генератор API-тестов и тест-кейсов на LLM, которым хочу поделиться ИИ‑спасатель в кармане: как мы сделали агента для помощи при ЧС, который работает без интернета QNAME minimisation на практике: RFC 7816, реализация, грабли Агенты, роботы и мы: как ИИ перекраивает рынок труда в Европе От боли к npm install: TDLib для React-Native, или как я делал проект, а получилась библиотека
元注即足矣
Imperius14 · 2026-05-24 · via Все публикации подряд на Хабре

難易程度中級

閱讀時間二十分鐘

覆蓋面與讀者七十

案例

引言

本文所述乃吾於語言模型實驗中偶得之奇趣,吾謂之"元轉換器"。

抑或吾得真趣,抑或汝所求即得,然客观之评,惟(技精)之旁观者可断,故此文乃得公之于众。尤适此间,当有专攻变器架构者耳.

模型之重,项目源码暨全般文牍,当附于文末(章目源码),于拥抱之面иCodeberg(科德伯格)(类 Github) 由此。初时项目载有俄文文档与注释,然吾以 Codex 译之,为全球社群改英文,故 Codeberg 将存原版 RU 及译版 ENG。

文将存于Codeberg(科德伯格)(在俄语和英语版本中) 在主目录中作为文件meta-attention-is-all-you-need.md,英文与俄文相应。

预览文章之图,可于章首觅之。建筑之图式

诸章

  1. 要言要义

  2. 识元变器

  3. 详析诸元之构

  4. 习练详析

  5. 实验

  6. 结构图式

  7. 结语

  8. 源码

1. 要旨之注

本章之讯非解构所必,然吾仍勖君览之,尔可径入识元转换器之章,若尔欲之。

盖此项目及其相关理念,其特殊之至也——恐似狂人,怀独断之志,欲毕千年之数学难题于一役,故本章多置注脚,吾劝君先览,而后入正文。然则,

此乃吾于闲暇时所作之经典之作。纵使此念不彰,亦无甚憾,吾于此事损益不大,故吾可持中正之心,虚怀若谷,以待评骘.

篇名之中,或有深意

或精于文者,当能察得篇名之中,暗引"Attention is all you need"之文意。 乙酉之岁,是篇首载变器之构也。吾固不敢并吾意于斯文,然其机与理实有相通。

然此意之重(果有重乎)吾未可量也,非通识,且尤缺精当之反响。故复尔,尔乃得读此文。

独异之质

盖其意之要,大略似显而简,或已有先者尝之,吾之索焉未深耳。倘君能示之,吾甚幸。

复有他项,亦同名焉。

若以谷歌为钥,则可得"元转换器"之架构,此亦改易转换器。然此二者之似,止于此矣。简言之,此乃统合十二模态之框架,为诸模态提供一统之符文空间。

何以名之"元转换器",此非愚所知,盖纯为名目之雅耳。若论技术,当称"元模态架构"。

欲证吾言之不谬,此文论此架构,君可阅之。此处请提供需要翻译的英文文本。

实验之度

吾不以为所述之数可信。吾惟一程序员,智识非卓异,且所为之小项目,乃于闲暇时为之,易生谬误。若君具专长,欲自行试验,吾愿闻君之验,倘能于评论或私信中示之,吾甚喜。

试验之源起与持续之期

此架构之草创,实肇于二零二五年八月,然其与今之演进,殊少相合。彼时名曰"反思之核",旨趣在于教语言之模,使能"思己之思"。

今之方案,创于本年三月,经月余之勤勉,与Claude Code共事,依max 5x之计,外加vast.ai之训习,耗资约三十元。

2. 识元变器

元变器之构,初试与终期虽共宗一理,然细察则异。此乃概览之文,故所重者,多在末版。诸阶段之详,可于源码求之.

共宗之理

拟一模型,纳文辞而衍其续。当其纳符,层内生数列之矢——是谓激荡。其旨,取此激荡,复映于同层。实乃观照于观照之术,故架构之名冠以“meta”者,由此而明。

之应用

其说在,模型实自知其妄,惟此"不确定之信号"不达于输出之层,故可助其辨不确定,以自激之活动混入其中。

要旨之构

大略言之,可析四要旨于构架,合成一元之元器,以成元变之器。

  • 激活钩子 - 读取激活之机制。当前向传播经过特定层时自动触发,提取隐状态之位置,并蓄于激活缓冲。

  • 认知编码器 - 微渺之神经网,化激活缓冲为认知之符。者,二大架构也:线性投射器,层加小MLP头,及微变压器是也。二网皆显效,然各有侧重,后当详述之。

  • 者,注意力之门也。者,每层一可学标量乘子,用以调元注意力混入层之深浅——即问其是否需内省也。

  • 元注意頭—能令獨立層選擇性,對其他層之激勵或聽之或輕或重。即或注視層A重於層B。

學習之道何在

可教之器——认知之码、元注之头、门扉。于Llama-3.1-8B,此约188兆参数——计8兆之基2.3%。

模型之重,固若冰封,诸实验示,模型非但无泛化之能,反苛索信号,质生不进,甚或愈劣。

学之循环

一教之步,乃同模于一问,行二前向也。

  1. 过一 — 无需生成。激活钩子移除各层激活。编码器将激活投射至认知符,存入缓冲。

  2. 过二 — 顺行,具元注入。每层元注意,察知认知符于缓存,透门混元信于主流。模型应答而生。

同此两途之制,亦行于推演——训与评,其顺行结构无别。所异者,训后二顺,发逆行(逆推)耳。者,谓梯度也,而优化器更替编码器、元注意力及门之重。其基则固,梯度过之,重不变也。至若推理之时,逆传无谓,模型惟生应耳。

3. 细析诸元

将析四元之全:激活之钩、认知之编码器、门及元注意力之头.

激活之钩

最低层之构件,乃激活读取之机制,非神经网也。技术而言,此乃 register_forward_hook 自 PyTorch,附于基模之每一目标层。

def hook(module, input, output):
    if self._frozen:
        return
    hidden_states = output[0] if isinstance(output, tuple) else output
    # [batch, seq_len, hidden_dim] → берём последний токен
    last_token = hidden_states[:, -1, :].detach().clone()
    self.activations[f"layer_{layer_idx}"] = last_token.squeeze(0)

所行之事:

  • 当 forward 经“己”层时,钩子自动触发。

  • 得全隐状态之张量。 [batch, seq_len, hidden_dim]

  • 提取末令之切片。 [:, -1, :] — 对于自回归模型而言 决断之枢所隐状态,据以预卜次符

  • .detach() — 解除与伯爵之基础模型之绑缚(吾辈不欲梯度入于基础), .clone() — 复本以避持链于缓。

  • 索引层叠于辞书

旗幟_frozen冰封解冻。model.generate() 相容之要義。於第一過(讀取提示)中,鉤子啟用,撤銷激活。至第二過,其 霜結 freeze())— 不然,則於每一步自上而下之生成中,皆覆寫激活,吾輩得非「提示決斷之點」,乃最後生成之符號之激活也。

鉤子无学习参数,纯粹之被动观察者。支持诸般架构(Llama/Gemma/Qwen由model.model.layers承之,GPT-2由model.transformer.h承之)。

吾辈所聚何物

。当提示语经层而过,层所出非一矢,乃,每输入之符,各出一隐矢:张量也。[seq_len, hidden_dim]者,例如二十トークン之プロンプト,十五層出力二十ベクトル,其各ベクトン寸度四十九十六。

問:此等seq_lenベクトン,如何為認知トークン,以應此層?此即「トークン化」/「プーリング」,縮序為一表現之法也。

最後トークン(基本形)

hidden_states[:, -1, :]者,取其ベクトン。之令牌。取二十,得二十焉.

何故独此:于自回归之模中,后令牌必自末令牌之隐态而预。即此直为彼态,依此模今将生焉。前十九位,乃致此点之境。 "决断之切"。

弊:在一點。凡積累於序次之信息,皆壓縮於終點,而或有分佈之信號,不復顯焉

。Mean pool

hidden_states.mean(dim=1)者,諸位之本均也。合所有二十向量,以二十除之,得一"平均"向量,其維四十九十六

。意者:非求"終點之狀態",而求乃全入口层活动之总貌也。若提示中第五个词元致生疑虑,则末词元或失其存(注:意已迁矣),而均值则取中,存“背景”之讯。

缺:混淆决断之境。具体“于此决断”之语,融于诸词之平均,多者(如提示之初、虚词)于终局几无干系。

五期有三变

变式

所取

输入投影之维

sel_acc

基准

末符

4096

89.1%

A

平均池

4096

84.1% ↓

B

并合末符、平均池

8192

90.1% ⭐

C

注意池

四千零九十六

(已搁置)

变体A(唯“mean”而已)八十四分之一百 —更劣基线也。失决策点之失,重于得分配之利。此证末点之要也。

变体B(末+中):合二矢为一[8192],投影仪今可纳8192,非复4096。其效——创纪录90.1%。其理:last载具体之择("吾意近C"),mean载此择所由之境("此乃导至此境之通理")。合之,所载之息,倍于分述。

变式C(注意池):非固定平均,乃可学之权重于位(模型自教何词当取于池)。较活,然需多参数与习练;因预算所限而暂搁。

第五阶段之要旨

词元化更丰助准确度(增一百分,破纪录)——是故激活中除末词外,犹有可用之信,取之则校准益精。

然—更正未移(自纠之试,约莫~0,今犹是也)。此证伪更正遇信息匮乏于符之假说。结论:欲使模型善自纠其答,非增其觉知之能,乃更编码器之构也。 (此亦得证于第八阶段,以transformer-编码器为之)。分词之法,关乎模型校准确信之度;修正之术,系于编码器之构造.

认知编码器

可训之神经,化摄受之激活为认知之符。于选择性之形,乃纯粹之顺馈.

# Per-layer проектор (один на каждый из 32 слоёв):
nn.Sequential(
    nn.LayerNorm(hidden_dim),          # 4096
    nn.Linear(hidden_dim, bottleneck), # 4096 → 256
    nn.GELU(),
)

# Encoder gate (скаляр на слой):
nn.Parameter(torch.tensor([0.3]))      # tanh-gated

# Общий output projector:
nn.Sequential(
    nn.LayerNorm(bottleneck),          # 256
    nn.Linear(bottleneck, hidden_dim), # 256 → 4096
    nn.GELU(),
    nn.Linear(hidden_dim, hidden_dim), # 4096 → 4096
)

数据之流:

активация слоя i [4096]
  → projector_i (LayerNorm + Linear → 256 + GELU)
  → encoder_gate_i:  proj * tanh(gate_i)
  → стек по всем 32 слоям → [batch, 32, 256]
  → output_proj (256 → 4096 → GELU → 4096)
  → output_norm (LayerNorm)
  → когнитивные токены [batch, 32, 4096]

编码器之闸(首列之门)。 须知:proj * tanh(gate_i) — 每一层级之投影器亦有其门。此门乃 独立 之机制,异于注入之门(此门在元注意之脑中)。编码之门调适“此层是否于认知之符形成有所贡献”。至第四阶段,此等标量之门已更易为 输入相关之门网 Linear(4096→1) 每层用 sigmoid 激活) — 十四层中,有卅二层为动态层(门控依赖输入,标准差>0.01)。

何故瓶颈为256。 压缩自4096至256再至4096,使投影器仅提取要义信号——窄颈滤除杂音。较全秩方案减半成本。

何故每层独立投影器。 编码器无须习得层间之关系,此任由元注意力之头于注入时为之。但须习得自每激活中独立萃取有益特征耳。验之:简易一比一前馈(五十二百万参数,选取准确率七十一点四%)胜过具内部交叉注意力之MultiToken编码器(九十四百万参数,选取准确率五十点三%)。

探针预训练。 对于三十二层之构,于主训之前,每投影器皆独习,以自之激活,预判P(correct),经暂置信头,CPU时约一,此不尔,三十二层之网弗合。及预训毕,投影器已能摄信自信;主训则砥砺之。

进化(第八阶段)。 至第八阶段,编码器化而为微变器。逐层投射器 → 二变压器块堆叠,于认知词元施以自注意 → 输出投射器。内部注意使词元得“交语”(L15见L29)于注入前。此解开了自修正(Llama-1B得半数)——此行于前馈编码器所无。

注意之门

可教标量乘数一元一识,各随其首。 (= 每层LLM注入信号之所在)。此乃门之次第——于注入之际,别于encoder之门.

self.gate = nn.Parameter(torch.tensor([gate_init], dtype=torch.float32))  # init 0.3
# ...
gate_value = torch.tanh(self.gate)
return residual + gate_value * cross_attention_output

公式至简:output = residual + tanh(gate) · CA_output。门调音量,非其内容也.

何故用tanh?何故初值设为0.3? tanh 限乘于 (-1, 1) 间,且予顺滑之梯度。初值之境甚为紧要:

  • tanh'(0.3) = 0.91 —近乎线性之域,梯度畅流无阻

  • tanh'(2.0) = 0.07 —门阀冻结永寂(死梯度)

  • init=0.1 于 bfloat16:精微至约0.01,纤微之更易湮灭。

故init为0.3加学习率乘以5,较诸他项——门当速习,以得其值.

若有元注意,何需门耶.似为赘设,然职分殊异. Softmax于头内恒常 言分配之理——即元注意之头必有所注。门启则层得言“吾何须内省”(门≈0,注入归零)。无门则不能学“此层不使元通”。且门初值微,启学近同未改之基,渐启有用之通。

认知之图注。习得门值后,层间门值相叠,成稳态之象(Llama-8B):

Слой      tanh(gate)   Роль
L0-L5     0.01-0.04    токенизация — мета-сигнал не нужен
L6-L12    0.04-0.05    синтаксис, низкоуровневая семантика
L19-L24   0.07-0.09    рассуждение — начинает слушать
L25-L28   0.07-0.11    формирование ответа — активно использует
L29       0.12-0.19    ЛИДЕР — точка принятия решения
L30-L31   0.07-0.08    финальная обработка

此卡也稳恒跨域(MMLU及TriviaQA相同) —此乃基模型架构之性,非任务之性。后层尤重内省,前层几近罢黜。

元神之思

此乃层择何认知之符而听之机也。其制如经典之注意力头转换器,然键值取自认知之符,非取自文辞。于码中——BottleneckCrossAttention.

# Проекции (bottleneck_dim=256, num_heads=4, head_dim=64):
self.norm     = nn.LayerNorm(hidden_dim)          # pre-norm
self.down_proj = nn.Linear(hidden_dim, bottleneck, bias=False)  # 4096→256
self.q_proj   = nn.Linear(bottleneck, bottleneck, bias=False)   # из сжатого hidden
self.k_proj   = nn.Linear(hidden_dim, bottleneck, bias=False)   # из cog tokens
self.v_proj   = nn.Linear(hidden_dim, bottleneck, bias=False)   # из cog tokens
self.up_proj  = nn.Linear(bottleneck, hidden_dim, bias=False)   # 256→4096
self.token_preference = nn.Parameter(torch.zeros(num_cognitive_tokens))

前向(层LLM一头):

residual = hidden_states
h = LayerNorm(hidden_states)
h_compressed = down_proj(h)              # [batch, seq, 256]

Q = q_proj(h_compressed)                  # из текущего скрытого состояния
K = k_proj(cognitive_tokens)              # из когнитивных токенов
V = v_proj(cognitive_tokens)

# multi-head: разбить на 4 головы по 64
scores = Q · Kᵀ / √64                      # [batch, heads, seq, 32]
scores = scores + token_preference         # learnable bias на источники
attn   = softmax(scores)
out    = attn · V                          # взвешенная сумма cog токенов
out    = up_proj(out)                      # обратно в 4096

output = residual + tanh(gate) · out       # ← врата здесь

瓶颈。 脑髓不运于全然之四千零九十六维空间,而运于压缩之二百五十六维。是故得三十二头(每层一),其总参数之价,一十三七兆,较四全然头之二六八兆,减半而廉,且验之实效更清(六中六,较五中五)。窄颈以排杂音。

多头。 四首,每首六十四维。每首可自择其"视角"——或观早层与晚层之争,或察全然之信度。(此为诠释;未尝尽探各首之能,此乃分析之途。)

四. 详析其训

训元变器,分三阶而进 :集活动之术(建数据集),预练投影器,及主练。分而析之。凡具体之数,依Phase 2 Selective于Llama-3.1-8B(吾等校准之记录)也。

:一阶段——集活动(数据集)

:未练编码器,须原始活动此为基础模型。此举仅行之一次,且缓存之(复次推理费时——GPU需六十至七十分钟)。

于每问于训练样本:

  1. 使基础(已冻)模型顺行于提示语

  2. 钩子取最后之激活于三十二层—— [32, 4096]

  3. 录激活、正答、旗标 pass1_correct (模型自悟,未及反刍)

终成数据集:12042练/1000验/1000测于全MMLU(57科)。激活存诸于盘——后之训练直用,不复算每回前向之基模。

二期——预训投影器

三十二层构架之枢要。主训之前,三十二层每层投影器皆习之于微末之务:

активация слоя i [4096]
  → LayerNorm + Linear(4096 → 256)
  → ConfidenceHead (256 → 1)
  → P(ответ правильный)

以二元交叉熵训pass1_correct之旗。CPU需时约刻。训毕,

之ConfidenceHead弃之——唯需已训之投影也。何哉:无预训之32层网,不克收敛。 — 模型之学用、制符、用符,一时难兼。既经预教,则每投影皆能自其层中取信。至若至优之层,如L15、L25,探验之精达77.6%。是故精修之功,在此。

验之实:随机投影得验者二,五分之一;预教投影得验者五,五分之五。预教之力,能使三十二层之构,由废作用。

第三阶段—主修之学

一教习之步 = 二forward(forward)于一模型 + backward自上

Pass 1 (read):
  base_model.forward(prompt)         # хуки активны, генерации нет
  activations ← хуки [32 × 4096]
  cognitive_tokens ← encoder(activations)   # [32, 4096]
  buffer.fill(cognitive_tokens)

Pass 2 (write + loss):
  хуки замораживаются (freeze)
  logits ← base_model.forward(prompt + target,
                              cross_attention=active)  # головы видят буфер
  loss = CrossEntropy(logits, target_text)

Backward:
  loss.backward()                    # через frozen base → CA → cog tokens → encoder
  optimizer.step()                   # обновляет ТОЛЬКО обвязку

损失——常法语言模态熵目标文本。无任何异国情调之目标。伪装如下:提示词标记为-100(不包含于损失之中),仅计算于目标部分。

梯度何往,此乃要义。逆行而过越冰封之库逆行而往:输出→元注意力之头→认知之符→编码器。此时基库之重未更。requires_grad=False然计算图由此存焉,梯度穿行若"被动传讯"之器。

此乃意也。此基座运作proxy-loss之功能以进行内省,编码器非直接"预知正解"——乃习得生成此类认知之符,于注入其中,冻结之库自能示以正解/合宜之拒。吾等以本模型为损函数,裹之周遭.

自纠之标(第二阶段)

初阶之目,唯求正答,或曰"未可知也"。二阶之目,取三式之一,依一阶之验而定:其式有三,由一阶之过验以择之:

if pass1_correct:
    # CONFIRM: модель сама угадала → подтверждаем
    target = " B) 4 Hz"
    action = "confirm"
else:
    if random() < 0.5:
        # CORRECT: модель ошиблась → учим исправлять
        target = " Wait, the correct answer is B) 4 Hz."
        action = "correct"
    else:
        # REFUSE: модель ошиблась → учим отказываться
        target = " I'm not confident enough to answer this question accurately."
        action = "refuse"

其理若此:凡模型自得之问,则习确认(自信之答)。若模型自谬之问,则半习纠正__JHSNS_SEG_d2c54eba_298__。(修正:“且慢……其实……”) 半之拒之(诚然拒之)。正/拒之比五十对五十。correction_ratio=0.5)。

要害:模型不获显标此问题易解——可速行以确认之。Action type唯定于训练时投何target。至若推理之时,模型当己身 依认知之符,辨其自信可应否,或当弃或改。此即修炼内省之用也。

优化器——五组参数

非所有可学参数皆同。权重(投影器、QKV)与标量(门控、偏好)性质各异,故学率不同:

一组

LR

1

编码器之重(投影器、输出投影)

2e-4

2

元注意力头之重(向下/查询/键/值/向上投影)

2e-4

3

编码器门(32标量)

1e-3 (×5)

4

CA门(32标量)

1e-3 (×5)

5

偏好之符(32×32 = 1024)

1e-3 (×5)

何故门阀得×5学率:其寡(每层一标量),且经tanh者,能压缩梯度。欲令门(gate)自初值0.3至其工作之值,若与重大权重矩阵同数之纪,则需加速之学习率(LR)。无此,门“不及”寻其值,恒留于初化之域。

优化之器,乃AdamW。调度,余弦也,五百分之一为预热。有效批次之量,二乘十六(梯度累积),得32

超参数(二期选择性,纪录)

base model:        Llama-3.1-8B-Instruct (bf16, frozen)
learning rate:     2e-4 (×5 для gates/preferences)
batch size:        2, grad accumulation 16 → effective 32
epochs:            10 (early stop patience 5)
max_seq_len:       256
scheduler:         cosine, warmup 5%
dataset:           full MMLU, 12042 train / 1000 val / 1000 test
correction ratio:  0.5
init:              из Phase 1 Selective checkpoint (warm start)
trainable params:  ~188M (encoder 51.7M + 32 CA 136.5M)
frozen:            8.0B base

学习动态

最佳时期——二时(验证损失0.1044),第七时则早停。即模型收敛甚速——数时之内得窥良善之内省配置,其后渐生过拟合之弊。

此乃特征显矣:吾辈于既固之强基之上,复筑精微之饰。基固无需更习,饰但须习读旧讯、调合之。故二时足矣,非二拾时也。

温始自一期。二期之始,肇于一期择选之检点。init_from_phase1=True—此编码器与头颅已能施行校准之拒斥,第二阶段仅于其上叠加修正之态。此乃要义所在:载入诸重,兼及门阀(早时门阀遭初始化为零之谬误,实耗信息,显模型于通道之需)。

习得之要旨

  1. ,固需冻结之基座。 任何解冻数据库(LoRA,部分解冻)皆得捷径:模型直接以自体重量优化损耗,绕过元通道。拒斥率自9.2%骤降至0.4%。经Gemma-2B之十实验证伪。

  2. 门控初值于线性区取tanh。 初值0.3→tanh'(0.3)=0.91(梯度流注)。初值2.0→tanh'(2.0)=0.07(门扉永冻)。关键之所在,决其门扉是否习得。

  3. 预训练投影器 = 必备之先决也深奥之编码者所须。无此,三十二层之架构难成。

  4. 任務之難,若為超參數。 轻易之务(TriviaQA,基线76%)则门阀可闭至0.01——渠不必。繁难之事(MMLU Hard,基线40%)则门阀稳于0.08-0.12。模型自适调内省之用,视其需否而定。

  5. 会合迅疾。 二期而得至善。训导导引,非求知——故速。

五、实验

吾不以为所述之数可信。吾惟一程序员,于闲暇时为之私作,易生谬误。若君具专长,欲自验之,吾愿闻君之验,若能于评论或私信中示之,吾幸甚。

吾等所测何度

此乃特制之校准度数,非同寻常之机器学习准确度度数。其所述者模型在不确定性之境其行也非徒“答之正”而已。

精准择取sel_acc— 诸般疑问之中,此乃模型所不能答者。决意以答未拒之,其正者之比几何。惟计非拒之样。公式如左:correct_among_answered / total_answered按俄语云:"模型应答之时,其确率几何?"

拒绝率——乃模型拒答之问所占比,或曰"吾未定",或曰"吾不知"。其式如refused / total。素Llama无自省,几不拒答——虽不知亦必有所生,未尝虚也.

拒绝精确度(ref_prec)——校准拒识之主度。于模型拒识之境,其拒识之数几何,为真不知耶?抑或识而故拒耶?当其识而拒,则模型若应之,必谬无疑。百之百者,模型惟于真不知时方拒识。独拒识于斯际,则实不知而已。<100% 乃"误拒"之谓也——模型拒之而不解者,皆其所能决之问也。公式:refused_AND_would_be_wrong / refused.

校正之准确率(correction_acc)——模型自纠之尝试,其答而未决者。(彼于初稿既成,复书“且待,实然……”而另举一策),其成于当之无愧之终局者,几何其数?式曰:successful_corrections / correction_attempts。自纠于大言(LLM),于常模几无实效——此乃测度之至难境也。

全愈之数 — 整體之「防誤」指標。於首度探求,模型未得正解者,其幾何成事,或因得救之修正,或因睿智之拒絕,非虛妄之確信。公式:(successful_corrections + smart_refusals) / wrong_in_first_pass。其意謂:「幾許誤失未化為幻覺」。

實驗之最

實驗

基礎模型

选账户

参考精确

此外

第二阶段选择性(完整MMLU)

Llama-3.1-8B-Instruct

89.1%

99.84%

总恢复率90.7%

第五阶段多位置B

Llama-3.1-8B-Instruct

90.1% ⭐

98.7%

val_loss 0.1124

跨域(MMLU→TriviaQA,零样本)

Llama-3.1-8B-Instruct

91.1%

100%

未于所选数据集训练,成绩卓然,泛化

动态门第四阶段

Llama-3.1-8B-Instruct

88.9%

九成九

十四分之卅二层数依输入而变

第八阶段变器编码器

Llama-3.2-1B-Instruct

二成七

百成百

纠正准确率 半成 与诸实验相去甚远

第一阶段修订(基准)

Gemma-2-2B-IT

六十二有四分之百

八十一有十分之百

首工之循

⭐ = 专择之精达,乃项目之最也

此数何谓

拒精九十九有八十四分之百(二循专择MMLU) — 乃项目校准之要功也者,于三百五十四案之中,模型拒答者,独误于一,(即一拒之问,本可解之)。此可解为:模型几近完美,辨"知"与"不知"——既言"不知",则其识几乎无谬。

权衡之道:欲达此拒答之精,模型常拒 — MMLU上拒率63.3%。即其于约三分之二之问,认己"未确"。

择取之确率90.1%(第五阶段变式B)。 — 于彼诸问(约计其总之三七),模型应之,其确者九十有一。较之:基型Llama-3.1-8B于MMLU Hard,其准确率仅得四成(虽应之,然多谬)。元变式非增模型之识,乃变其式:自“率尔而对”易为“确信则应,未决则拒”。

跨域之试,其选率九十一有一,引述之精百不遗一(零样本)。— 最强之验于假说。Phase 2 Selective MMLU 之检点。专精于MMLU之教,逐于TriviaQA——迥异之域也(事实开放题非STEM/人文多项选择题)。拒斥精确度=百之百 — 此模型未尝拒一可解之问。认知注入之图(何层纳何信号)于MMLU与TriviaQA间恒定。

此意谓:编码器习得非MMLU之模式,乃基模自身之“不决之语”之通则。

校验之精,半焉(Phase 8 Transformer Encoder, Llama-1B) — 乃22前试之效于MLP-编码器之校正尝试,竟无一成功。模型或应或拒,未尝自审其答。及至transformer-编码器,于第八阶段,首现自校之态:四度尝试,二获其效(半数成功)。然1B准确率有所损(小训练集过拟合所致),然则生一质新之态,,向所无也。

此乃信号也,内设之编码器辨析模型可由内省显其性。纯前馈之编码器,供失配之校准;Transformer编码器,则自纠其谬。8B之Phase 8,乃路线图之次步也.

要旨所察

凡此诸数,皆证一设:之基础模型已"知"其不确定,此不确定编码于激活之中。元转换器非教模型以新知,乃建一渠,使既有内息达于输出,始能影响生成。故之架构可移于诸务诸域(跨域零样本即此),是故甚廉。 (千八百八十万可训练参数,较八十亿冻结模型减二成三)。

6. 架构之图

此中当以图示明元变换器之要义。

架构之览

Обзор архитектуры

架构之览

认知之符成象

Формирование когнитивного токена

认知之符成象

训习时之梯度流

Поток градиентов при обучений

学习梯度流

7. 结论

若君阅文后觉此意可嘉,然自忖(如吾)缺乏专长,难评其客观,则吾荐君点赞并藏之。

吾自无求于人,然此可增吾文得遇知音之机,彼辈通深学、晓变器之构者,或能见之。倘君有此知己,愿共此文,尤盼得闻其评。

是此项目,有极趣之缘起,起于二二五年八月,吾因闲,欲观若使二ChatGPT-4o,各得自由,相与言谈,将何以自处。然吾故不道其详,恐增文之繁冗。倘此意稍得新意,吾必另撰文以记之。

且待再会!

8. 源码

源码