元注即足矣

引言

本文所述乃吾於語言模型實驗中偶得之奇趣，吾謂之"元轉換器"。

抑或吾得真趣，抑或汝所求即得，然客观之评，惟(技精)之旁观者可断，故此文乃得公之于众。尤适此间，当有专攻变器架构者耳.

模型之重，项目源码暨全般文牍，当附于文末(章目源码)，于拥抱之面иCodeberg(科德伯格)(类 Github) 由此。初时项目载有俄文文档与注释，然吾以 Codex 译之，为全球社群改英文，故 Codeberg 将存原版 RU 及译版 ENG。
文将存于Codeberg(科德伯格)(在俄语和英语版本中) 在主目录中作为文件meta-attention-is-all-you-need.md，英文与俄文相应。
预览文章之图，可于章首觅之。建筑之图式。

诸章

要言要义
识元变器
详析诸元之构
习练详析
实验
结构图式
结语
源码

1. 要旨之注

本章之讯非解构所必，然吾仍勖君览之，尔可径入识元转换器之章，若尔欲之。

盖此项目及其相关理念，其特殊之至也——恐似狂人，怀独断之志，欲毕千年之数学难题于一役，故本章多置注脚，吾劝君先览，而后入正文。然则，

此乃吾于闲暇时所作之经典之作。纵使此念不彰，亦无甚憾，吾于此事损益不大，故吾可持中正之心，虚怀若谷，以待评骘.

篇名之中，或有深意

或精于文者，当能察得篇名之中，暗引"Attention is all you need"之文意。 乙酉之岁，是篇首载变器之构也。吾固不敢并吾意于斯文，然其机与理实有相通。

然此意之重（果有重乎）吾未可量也，非通识，且尤缺精当之反响。故复尔，尔乃得读此文。

独异之质

盖其意之要，大略似显而简，或已有先者尝之，吾之索焉未深耳。倘君能示之，吾甚幸。

复有他项，亦同名焉。

若以谷歌为钥，则可得"元转换器"之架构，此亦改易转换器。然此二者之似，止于此矣。简言之，此乃统合十二模态之框架，为诸模态提供一统之符文空间。

何以名之"元转换器"，此非愚所知，盖纯为名目之雅耳。若论技术，当称"元模态架构"。

欲证吾言之不谬，此文论此架构，君可阅之。此处请提供需要翻译的英文文本。

实验之度

吾不以为所述之数可信。吾惟一程序员，智识非卓异，且所为之小项目，乃于闲暇时为之，易生谬误。若君具专长，欲自行试验，吾愿闻君之验，倘能于评论或私信中示之，吾甚喜。

试验之源起与持续之期

此架构之草创，实肇于二零二五年八月，然其与今之演进，殊少相合。彼时名曰"反思之核"，旨趣在于教语言之模，使能"思己之思"。

今之方案，创于本年三月，经月余之勤勉，与Claude Code共事，依max 5x之计，外加vast.ai之训习，耗资约三十元。

2. 识元变器

元变器之构，初试与终期虽共宗一理，然细察则异。此乃概览之文，故所重者，多在末版。诸阶段之详，可于源码求之.

共宗之理

拟一模型，纳文辞而衍其续。当其纳符，层内生数列之矢——是谓激荡。其旨，取此激荡，复映于同层。实乃观照于观照之术，故架构之名冠以“meta”者，由此而明。

之应用

其说在，模型实自知其妄，惟此"不确定之信号"不达于输出之层，故可助其辨不确定，以自激之活动混入其中。

要旨之构

大略言之，可析四要旨于构架，合成一元之元器，以成元变之器。

激活钩子 - 读取激活之机制。当前向传播经过特定层时自动触发，提取隐状态之位置，并蓄于激活缓冲。
认知编码器 - 微渺之神经网，化激活缓冲为认知之符。者，二大架构也：线性投射器，层加小MLP头，及微变压器是也。二网皆显效，然各有侧重，后当详述之。
者，注意力之门也。者，每层一可学标量乘子，用以调元注意力混入层之深浅——即问其是否需内省也。
元注意頭—能令獨立層選擇性察，對其他層之激勵或聽之或輕或重。即或注視層A重於層B。

學習之道何在

可教之器——认知之码、元注之头、门扉。于Llama-3.1-8B，此约188兆参数——计8兆之基2.3%。

模型之重，固若冰封，诸实验示，模型非但无泛化之能，反苛索信号，质生不进，甚或愈劣。

学之循环

一教之步，乃同模于一问，行二前向也。

过一 — 无需生成。激活钩子移除各层激活。编码器将激活投射至认知符，存入缓冲。
过二 — 顺行，具元注入。每层元注意，察知认知符于缓存，透门混元信于主流。模型应答而生。

同此两途之制，亦行于推演——训与评，其顺行结构无别。所异者，训后二顺，发逆行（逆推）耳。者，谓梯度也，而优化器更替编码器、元注意力及门之重。其基则固，梯度过之，重不变也。至若推理之时，逆传无谓，模型惟生应耳。

3. 细析诸元

将析四元之全：激活之钩、认知之编码器、门及元注意力之头.

激活之钩

最低层之构件，乃激活读取之机制，非神经网也。技术而言，此乃 register_forward_hook 自 PyTorch，附于基模之每一目标层。

def hook(module, input, output):
    if self._frozen:
        return
    hidden_states = output[0] if isinstance(output, tuple) else output
    # [batch, seq_len, hidden_dim] → берём последний токен
    last_token = hidden_states[:, -1, :].detach().clone()
    self.activations[f"layer_{layer_idx}"] = last_token.squeeze(0)

所行之事：

当 forward 经“己”层时，钩子自动触发。
得全隐状态之张量。 [batch, seq_len, hidden_dim]
提取末令之切片。 [:, -1, :] — 对于自回归模型而言 决断之枢所隐状态，据以预卜次符
.detach() — 解除与伯爵之基础模型之绑缚（吾辈不欲梯度入于基础）， .clone() — 复本以避持链于缓。
索引层叠于辞书

旗幟_frozen冰封解冻。 與 model.generate() 相容之要義。於第一過（讀取提示）中，鉤子啟用，撤銷激活。至第二過，其霜結（freeze()）— 不然，則於每一步自上而下之生成中，皆覆寫激活，吾輩得非「提示決斷之點」，乃最後生成之符號之激活也。

鉤子无学习参数，纯粹之被动观察者。支持诸般架构（Llama/Gemma/Qwen由model.model.layers承之，GPT-2由model.transformer.h承之）。

吾辈所聚何物

。当提示语经层而过，层所出非一矢，乃，每输入之符，各出一隐矢：张量也。[seq_len, hidden_dim]者，例如二十トークン之プロンプト，十五層出力二十ベクトル，其各ベクトン寸度四十九十六。

問：此等seq_lenベクトン，如何為一認知トークン，以應此層？此即「トークン化」/「プーリング」，縮序為一表現之法也。

最後トークン（基本形）

hidden_states[:, -1, :]者，取其ベクトン。末之令牌。取二十，得二十焉.

何故独此：于自回归之模中，后令牌必自末令牌之隐态而预。即此直为彼态，依此模今将生焉。前十九位，乃致此点之境。 "决断之切"。

弊：在一點。凡積累於序次之信息，皆壓縮於終點，而或有分佈之信號，不復顯焉

。Mean pool

hidden_states.mean(dim=1)者，諸位之本均也。合所有二十向量，以二十除之，得一"平均"向量，其維四十九十六

。意者：非求"終點之狀態"，而求乃全入口层活动之总貌也。若提示中第五个词元致生疑虑，则末词元或失其存（注：意已迁矣），而均值则取中，存“背景”之讯。

缺：混淆决断之境。具体“于此决断”之语，融于诸词之平均，多者（如提示之初、虚词）于终局几无干系。

五期有三变

变式	所取	输入投影之维	sel_acc
基准	末符	4096	89.1%
A	平均池	4096	84.1% ↓
B	并合末符、平均池	8192	90.1% ⭐
C	注意池	四千零九十六	（已搁置）

变体A（唯“mean”而已）八十四分之一百 —更劣基线也。失决策点之失，重于得分配之利。此证末点之要也。

变体B（末+中）：合二矢为一[8192]，投影仪今可纳8192，非复4096。其效——创纪录90.1%。其理：last载具体之择（"吾意近C"），mean载此择所由之境（"此乃导至此境之通理"）。合之，所载之息，倍于分述。

变式C（注意池）：非固定平均，乃可学之权重于位（模型自教何词当取于池）。较活，然需多参数与习练；因预算所限而暂搁。

第五阶段之要旨

词元化更丰助准确度（增一百分，破纪录）——是故激活中除末词外，犹有可用之信，取之则校准益精。

然—更正未移（自纠之试，约莫~0，今犹是也）。此证伪更正遇信息匮乏于符之假说。结论：欲使模型善自纠其答，非增其觉知之能，乃更编码器之构也。 (此亦得证于第八阶段，以transformer-编码器为之)。分词之法，关乎模型校准确信之度；修正之术，系于编码器之构造.

认知编码器

可训之神经，化摄受之激活为认知之符。于选择性之形，乃纯粹之顺馈.

# Per-layer проектор (один на каждый из 32 слоёв):
nn.Sequential(
    nn.LayerNorm(hidden_dim),          # 4096
    nn.Linear(hidden_dim, bottleneck), # 4096 → 256
    nn.GELU(),
)

# Encoder gate (скаляр на слой):
nn.Parameter(torch.tensor([0.3]))      # tanh-gated

# Общий output projector:
nn.Sequential(
    nn.LayerNorm(bottleneck),          # 256
    nn.Linear(bottleneck, hidden_dim), # 256 → 4096
    nn.GELU(),
    nn.Linear(hidden_dim, hidden_dim), # 4096 → 4096
)

数据之流：

активация слоя i [4096]
  → projector_i (LayerNorm + Linear → 256 + GELU)
  → encoder_gate_i:  proj * tanh(gate_i)
  → стек по всем 32 слоям → [batch, 32, 256]
  → output_proj (256 → 4096 → GELU → 4096)
  → output_norm (LayerNorm)
  → когнитивные токены [batch, 32, 4096]

编码器之闸（首列之门）。 须知：proj * tanh(gate_i) — 每一层级之投影器亦有其门。此门乃独立之机制，异于注入之门（此门在元注意之脑中）。编码之门调适“此层是否于认知之符形成有所贡献”。至第四阶段，此等标量之门已更易为 输入相关之门网 。Linear(4096→1) 每层用 sigmoid 激活) — 十四层中，有卅二层为动态层（门控依赖输入，标准差>0.01）。

何故瓶颈为256。 压缩自4096至256再至4096，使投影器仅提取要义信号——窄颈滤除杂音。较全秩方案减半成本。

何故每层独立投影器。 编码器无须习得层间之关系，此任由元注意力之头于注入时为之。但须习得自每激活中独立萃取有益特征耳。验之：简易一比一前馈（五十二百万参数，选取准确率七十一点四%）胜过具内部交叉注意力之MultiToken编码器（九十四百万参数，选取准确率五十点三%）。

探针预训练。 对于三十二层之构，于主训之前，每投影器皆独习，以自之激活，预判P(correct)，经暂置信头，CPU时约一，此不尔，三十二层之网弗合。及预训毕，投影器已能摄信自信；主训则砥砺之。

进化（第八阶段）。 至第八阶段，编码器化而为微变器。逐层投射器 → 二变压器块堆叠，于认知词元施以自注意 → 输出投射器。内部注意使词元得“交语”（L15见L29）于注入前。此解开了自修正（Llama-1B得半数）——此行于前馈编码器所无。

注意之门

可教标量乘数一元一识，各随其首。 (= 每层LLM注入信号之所在)。此乃门之次第——于注入之际，别于encoder之门.

self.gate = nn.Parameter(torch.tensor([gate_init], dtype=torch.float32))  # init 0.3
# ...
gate_value = torch.tanh(self.gate)
return residual + gate_value * cross_attention_output

公式至简：output = residual + tanh(gate) · CA_output。门调音量，非其内容也.

何故用tanh？何故初值设为0.3？ tanh 限乘于 (-1, 1) 间，且予顺滑之梯度。初值之境甚为紧要：

tanh'(0.3) = 0.91 —近乎线性之域，梯度畅流无阻
tanh'(2.0) = 0.07 —门阀冻结永寂（死梯度）
init=0.1 于 bfloat16：精微至约0.01，纤微之更易湮灭。

故init为0.3加学习率乘以5，较诸他项——门当速习，以得其值.

若有元注意，何需门耶.似为赘设，然职分殊异. Softmax于头内恒常言分配之理——即元注意之头必有所注。门启则层得言“吾何须内省”（门≈0，注入归零）。无门则不能学“此层不使元通”。且门初值微，启学近同未改之基，渐启有用之通。

认知之图注。习得门值后，层间门值相叠，成稳态之象（Llama-8B）：

Слой      tanh(gate)   Роль
L0-L5     0.01-0.04    токенизация — мета-сигнал не нужен
L6-L12    0.04-0.05    синтаксис, низкоуровневая семантика
L19-L24   0.07-0.09    рассуждение — начинает слушать
L25-L28   0.07-0.11    формирование ответа — активно использует
L29       0.12-0.19    ЛИДЕР — точка принятия решения
L30-L31   0.07-0.08    финальная обработка

此卡也稳恒跨域(MMLU及TriviaQA相同) —此乃基模型架构之性，非任务之性。后层尤重内省，前层几近罢黜。

元神之思

此乃层择何认知之符而听之机也。其制如经典之注意力头转换器，然键值取自认知之符，非取自文辞。于码中——BottleneckCrossAttention.

# Проекции (bottleneck_dim=256, num_heads=4, head_dim=64):
self.norm     = nn.LayerNorm(hidden_dim)          # pre-norm
self.down_proj = nn.Linear(hidden_dim, bottleneck, bias=False)  # 4096→256
self.q_proj   = nn.Linear(bottleneck, bottleneck, bias=False)   # из сжатого hidden
self.k_proj   = nn.Linear(hidden_dim, bottleneck, bias=False)   # из cog tokens
self.v_proj   = nn.Linear(hidden_dim, bottleneck, bias=False)   # из cog tokens
self.up_proj  = nn.Linear(bottleneck, hidden_dim, bias=False)   # 256→4096
self.token_preference = nn.Parameter(torch.zeros(num_cognitive_tokens))

前向（层LLM一头）：

residual = hidden_states
h = LayerNorm(hidden_states)
h_compressed = down_proj(h)              # [batch, seq, 256]

Q = q_proj(h_compressed)                  # из текущего скрытого состояния
K = k_proj(cognitive_tokens)              # из когнитивных токенов
V = v_proj(cognitive_tokens)

# multi-head: разбить на 4 головы по 64
scores = Q · Kᵀ / √64                      # [batch, heads, seq, 32]
scores = scores + token_preference         # learnable bias на источники
attn   = softmax(scores)
out    = attn · V                          # взвешенная сумма cog токенов
out    = up_proj(out)                      # обратно в 4096

output = residual + tanh(gate) · out       # ← врата здесь

瓶颈。 脑髓不运于全然之四千零九十六维空间，而运于压缩之二百五十六维。是故得三十二头（每层一），其总参数之价，一十三七兆，较四全然头之二六八兆，减半而廉，且验之实效更清（六中六，较五中五）。窄颈以排杂音。

多头。 四首，每首六十四维。每首可自择其"视角"——或观早层与晚层之争，或察全然之信度。(此为诠释；未尝尽探各首之能，此乃分析之途。)

四. 详析其训

训元变器，分三阶而进：集活动之术（建数据集），预练投影器，及主练。分而析之。凡具体之数，依Phase 2 Selective于Llama-3.1-8B（吾等校准之记录）也。

：一阶段——集活动（数据集）

：未练编码器，须原始活动此为基础模型。此举仅行之一次，且缓存之（复次推理费时——GPU需六十至七十分钟）。

于每问于训练样本：

使基础（已冻）模型顺行于提示语
钩子取最后之激活于三十二层—— [32, 4096]
录激活、正答、旗标 pass1_correct （模型自悟，未及反刍）

终成数据集：12042练/1000验/1000测于全MMLU（57科）。激活存诸于盘——后之训练直用，不复算每回前向之基模。

二期——预训投影器

三十二层构架之枢要。主训之前，三十二层每层投影器皆习之自于微末之务：

активация слоя i [4096]
  → LayerNorm + Linear(4096 → 256)
  → ConfidenceHead (256 → 1)
  → P(ответ правильный)

以二元交叉熵训pass1_correct之旗。CPU需时约刻。训毕，

之ConfidenceHead弃之——唯需已训之投影也。何哉：无预训之32层网，不克收敛。 — 模型之学用、制符、用符，一时难兼。既经预教，则每投影皆能自其层中取信。至若至优之层，如L15、L25，探验之精达77.6%。是故精修之功，在此。

验之实：随机投影得验者二，五分之一；预教投影得验者五，五分之五。预教之力，能使三十二层之构，由废作用。

第三阶段—主修之学

一教习之步 = 二forward（forward）于一模型 + backward自上

Pass 1 (read):
  base_model.forward(prompt)         # хуки активны, генерации нет
  activations ← хуки [32 × 4096]
  cognitive_tokens ← encoder(activations)   # [32, 4096]
  buffer.fill(cognitive_tokens)

Pass 2 (write + loss):
  хуки замораживаются (freeze)
  logits ← base_model.forward(prompt + target,
                              cross_attention=active)  # головы видят буфер
  loss = CrossEntropy(logits, target_text)

Backward:
  loss.backward()                    # через frozen base → CA → cog tokens → encoder
  optimizer.step()                   # обновляет ТОЛЬКО обвязку

损失——常法语言模态熵目标文本。无任何异国情调之目标。伪装如下：提示词标记为-100(不包含于损失之中)，仅计算于目标部分。

梯度何往，此乃要义。逆行而过越冰封之库逆行而往：输出→元注意力之头→认知之符→编码器。此时基库之重未更。requires_grad=False然计算图由此存焉，梯度穿行若"被动传讯"之器。

此乃意也。此基座运作proxy-loss之功能以进行内省，编码器非直接"预知正解"——乃习得生成此类认知之符，于注入其中，冻结之库自能示以正解/合宜之拒。吾等以本模型为损函数，裹之周遭.

自纠之标（第二阶段）

初阶之目，唯求正答，或曰"未可知也"。二阶之目，取三式之一，依一阶之验而定：其式有三，由一阶之过验以择之：

if pass1_correct:
    # CONFIRM: модель сама угадала → подтверждаем
    target = " B) 4 Hz"
    action = "confirm"
else:
    if random() < 0.5:
        # CORRECT: модель ошиблась → учим исправлять
        target = " Wait, the correct answer is B) 4 Hz."
        action = "correct"
    else:
        # REFUSE: модель ошиблась → учим отказываться
        target = " I'm not confident enough to answer this question accurately."
        action = "refuse"

其理若此：凡模型自得之问，则习确认（自信之答）。若模型自谬之问，则半习纠正__JHSNS_SEG_d2c54eba_298__。(修正：“且慢……其实……”) 半之拒之(诚然拒之)。正/拒之比五十对五十。correction_ratio=0.5)。

要害：模型不获显标此问题易解——可速行以确认之。Action type唯定于训练时投何target。至若推理之时，模型当己身依认知之符，辨其自信可应否，或当弃或改。此即修炼内省之用也。

优化器——五组参数

非所有可学参数皆同。权重（投影器、QKV）与标量（门控、偏好）性质各异，故学率不同：

一组	何	LR
1	编码器之重（投影器、输出投影）	2e-4
2	元注意力头之重（向下/查询/键/值/向上投影）	2e-4
3	编码器门（32标量）	1e-3 （×5）
4	CA门（32标量）	1e-3 (×5)
5	偏好之符（32×32 = 1024)	1e-3 (×5)

何故门阀得×5学率：其寡（每层一标量），且经tanh者，能压缩梯度。欲令门（gate）自初值0.3至其工作之值，若与重大权重矩阵同数之纪，则需加速之学习率（LR）。无此，门“不及”寻其值，恒留于初化之域。

优化之器，乃AdamW。调度，余弦也，五百分之一为预热。有效批次之量，二乘十六（梯度累积），得32。

超参数（二期选择性，纪录)

base model:        Llama-3.1-8B-Instruct (bf16, frozen)
learning rate:     2e-4 (×5 для gates/preferences)
batch size:        2, grad accumulation 16 → effective 32
epochs:            10 (early stop patience 5)
max_seq_len:       256
scheduler:         cosine, warmup 5%
dataset:           full MMLU, 12042 train / 1000 val / 1000 test
correction ratio:  0.5
init:              из Phase 1 Selective checkpoint (warm start)
trainable params:  ~188M (encoder 51.7M + 32 CA 136.5M)
frozen:            8.0B base

学习动态

最佳时期——二时（验证损失0.1044），第七时则早停。即模型收敛甚速——数时之内得窥良善之内省配置，其后渐生过拟合之弊。

此乃特征显矣：吾辈于既固之强基之上，复筑精微之饰。基固无需更习，饰但须习读旧讯、调合之。故二时足矣，非二拾时也。

温始自一期。二期之始，肇于一期择选之检点。init_from_phase1=True—此编码器与头颅已能施行校准之拒斥，第二阶段仅于其上叠加修正之态。此乃要义所在：载入诸重，兼及门阀（早时门阀遭初始化为零之谬误，实耗信息，显模型于通道之需）。

习得之要旨

，固需冻结之基座。 任何解冻数据库（LoRA，部分解冻）皆得捷径：模型直接以自体重量优化损耗，绕过元通道。拒斥率自9.2%骤降至0.4%。经Gemma-2B之十实验证伪。
门控初值于线性区取tanh。 初值0.3→tanh'(0.3)=0.91（梯度流注）。初值2.0→tanh'(2.0)=0.07（门扉永冻）。关键之所在，决其门扉是否习得。
预训练投影器 = 必备之先决也深奥之编码者所须。无此，三十二层之架构难成。
任務之難，若為超參數。 轻易之务（TriviaQA，基线76%）则门阀可闭至0.01——渠不必。繁难之事（MMLU Hard，基线40%）则门阀稳于0.08-0.12。模型自适调内省之用，视其需否而定。
会合迅疾。 二期而得至善。训导导引，非求知——故速。

五、实验

吾不以为所述之数可信。吾惟一程序员，于闲暇时为之私作，易生谬误。若君具专长，欲自验之，吾愿闻君之验，若能于评论或私信中示之，吾幸甚。

吾等所测何度

此乃特制之校准度数，非同寻常之机器学习准确度度数。其所述者模型在不确定性之境其行也非徒“答之正”而已。

精准择取sel_acc）— 诸般疑问之中，此乃模型所不能答者。决意以答未拒之，其正者之比几何。惟计非拒之样。公式如左：correct_among_answered / total_answered按俄语云："模型应答之时，其确率几何？"

拒绝率——乃模型拒答之问所占比，或曰"吾未定"，或曰"吾不知"。其式如refused / total。素Llama无自省，几不拒答——虽不知亦必有所生，未尝虚也.

拒绝精确度(ref_prec)——校准拒识之主度。于模型拒识之境，其拒识之数几何，为真不知耶？抑或识而故拒耶？当其识而拒，则模型若应之，必谬无疑。百之百者，模型惟于真不知时方拒识。独拒识于斯际，则实不知而已。<100% 乃"误拒"之谓也——模型拒之而不解者，皆其所能决之问也。公式：refused_AND_would_be_wrong / refused.

校正之准确率(correction_acc)——模型自纠之尝试，其答而未决者。（彼于初稿既成，复书“且待，实然……”而另举一策），其成于当之无愧之终局者，几何其数？式曰：successful_corrections / correction_attempts。自纠于大言（LLM），于常模几无实效——此乃测度之至难境也。

全愈之数 — 整體之「防誤」指標。於首度探求，模型未得正解者，其幾何成事，或因得救之修正，或因睿智之拒絕，非虛妄之確信。公式：(successful_corrections + smart_refusals) / wrong_in_first_pass。其意謂：「幾許誤失未化為幻覺」。

實驗之最

實驗	基礎模型	选账户	参考精确	此外
第二阶段选择性（完整MMLU）	Llama-3.1-8B-Instruct	89.1%	99.84%	总恢复率90.7%
第五阶段多位置B	Llama-3.1-8B-Instruct	90.1% ⭐	98.7%	val_loss 0.1124
跨域(MMLU→TriviaQA,零样本)	Llama-3.1-8B-Instruct	91.1%	100%	未于所选数据集训练，成绩卓然，泛化
动态门第四阶段	Llama-3.1-8B-Instruct	88.9%	九成九	十四分之卅二层数依输入而变
第八阶段变器编码器	Llama-3.2-1B-Instruct	二成七	百成百	纠正准确率半成与诸实验相去甚远
第一阶段修订（基准）	Gemma-2-2B-IT	六十二有四分之百	八十一有十分之百	首工之循

⭐ = 专择之精达，乃项目之最也

此数何谓

拒精九十九有八十四分之百（二循专择MMLU） — 乃项目校准之要功也者，于三百五十四案之中，模型拒答者，独误于一，（即一拒之问，本可解之）。此可解为：模型几近完美，辨"知"与"不知"——既言"不知"，则其识几乎无谬。

权衡之道：欲达此拒答之精，模型常拒 — MMLU上拒率63.3%。即其于约三分之二之问，认己"未确"。

择取之确率90.1%（第五阶段变式B）。 — 于彼诸问（约计其总之三七），模型应之，其确者九十有一。较之：基型Llama-3.1-8B于MMLU Hard，其准确率仅得四成（虽应之，然多谬）。元变式非增模型之识，乃变其式：自“率尔而对”易为“确信则应，未决则拒”。

跨域之试，其选率九十一有一，引述之精百不遗一（零样本）。— 最强之验于假说。Phase 2 Selective MMLU 之检点。专精于MMLU之教，逐于TriviaQA——迥异之域也（事实开放题非STEM/人文多项选择题）。拒斥精确度=百之百 — 此模型未尝拒一可解之问。认知注入之图（何层纳何信号）于MMLU与TriviaQA间恒定。

此意谓：编码器习得非MMLU之模式，乃基模自身之“不决之语”之通则。。

校验之精，半焉（Phase 8 Transformer Encoder, Llama-1B) — 乃22前试之效于MLP-编码器之校正尝试，竟无一成功。模型或应或拒，未尝自审其答。及至transformer-编码器，于第八阶段，首现自校之态：四度尝试，二获其效（半数成功）。然1B准确率有所损（小训练集过拟合所致），然则生一质新之态，，，向所无也。

此乃信号也，内设之编码器辨析模型可由内省显其性。纯前馈之编码器，供失配之校准；Transformer编码器，则自纠其谬。8B之Phase 8，乃路线图之次步也.

要旨所察

凡此诸数，皆证一设：之基础模型已"知"其不确定，此不确定编码于激活之中。元转换器非教模型以新知，乃建一渠，使既有内息达于输出，始能影响生成。故之架构可移于诸务诸域（跨域零样本即此），是故甚廉。 (千八百八十万可训练参数，较八十亿冻结模型减二成三)。

6. 架构之图

此中当以图示明元变换器之要义。

架构之览

认知之符成象

Формирование когнитивного токена — 认知之符成象

训习时之梯度流

7. 结论

若君阅文后觉此意可嘉，然自忖（如吾）缺乏专长，难评其客观，则吾荐君点赞并藏之。

吾自无求于人，然此可增吾文得遇知音之机，彼辈通深学、晓变器之构者，或能见之。倘君有此知己，愿共此文，尤盼得闻其评。

是此项目，有极趣之缘起，起于二二五年八月，吾因闲，欲观若使二ChatGPT-4o，各得自由，相与言谈，将何以自处。然吾故不道其详，恐增文之繁冗。倘此意稍得新意，吾必另撰文以记之。

且待再会！

8. 源码

源码

推薦訂閱源

Все публикации подряд на Хабре

引言