引言
本文所述乃吾於語言模型實驗中偶得之奇趣,吾謂之"元轉換器"。
抑或吾得真趣,抑或汝所求即得,然客观之评,惟(技精)之旁观者可断,故此文乃得公之于众。尤适此间,当有专攻变器架构者耳.
模型之重,项目源码暨全般文牍,当附于文末(章目源码),于拥抱之面иCodeberg(科德伯格)(类 Github) 由此。初时项目载有俄文文档与注释,然吾以 Codex 译之,为全球社群改英文,故 Codeberg 将存原版 RU 及译版 ENG。
文将存于Codeberg(科德伯格)(在俄语和英语版本中) 在主目录中作为文件
meta-attention-is-all-you-need.md,英文与俄文相应。预览文章之图,可于章首觅之。建筑之图式。
诸章
1. 要旨之注
本章之讯非解构所必,然吾仍勖君览之,尔可径入识元转换器之章,若尔欲之。
盖此项目及其相关理念,其特殊之至也——恐似狂人,怀独断之志,欲毕千年之数学难题于一役,故本章多置注脚,吾劝君先览,而后入正文。然则,
此乃吾于闲暇时所作之经典之作。纵使此念不彰,亦无甚憾,吾于此事损益不大,故吾可持中正之心,虚怀若谷,以待评骘.
篇名之中,或有深意
或精于文者,当能察得篇名之中,暗引"Attention is all you need"之文意。 乙酉之岁,是篇首载变器之构也。吾固不敢并吾意于斯文,然其机与理实有相通。
然此意之重(果有重乎)吾未可量也,非通识,且尤缺精当之反响。故复尔,尔乃得读此文。
独异之质
盖其意之要,大略似显而简,或已有先者尝之,吾之索焉未深耳。倘君能示之,吾甚幸。
复有他项,亦同名焉。
若以谷歌为钥,则可得"元转换器"之架构,此亦改易转换器。然此二者之似,止于此矣。简言之,此乃统合十二模态之框架,为诸模态提供一统之符文空间。
何以名之"元转换器",此非愚所知,盖纯为名目之雅耳。若论技术,当称"元模态架构"。
欲证吾言之不谬,此文论此架构,君可阅之。此处请提供需要翻译的英文文本。
实验之度
吾不以为所述之数可信。吾惟一程序员,智识非卓异,且所为之小项目,乃于闲暇时为之,易生谬误。若君具专长,欲自行试验,吾愿闻君之验,倘能于评论或私信中示之,吾甚喜。
试验之源起与持续之期
此架构之草创,实肇于二零二五年八月,然其与今之演进,殊少相合。彼时名曰"反思之核",旨趣在于教语言之模,使能"思己之思"。
今之方案,创于本年三月,经月余之勤勉,与Claude Code共事,依max 5x之计,外加vast.ai之训习,耗资约三十元。
2. 识元变器
元变器之构,初试与终期虽共宗一理,然细察则异。此乃概览之文,故所重者,多在末版。诸阶段之详,可于源码求之.
共宗之理
拟一模型,纳文辞而衍其续。当其纳符,层内生数列之矢——是谓激荡。其旨,取此激荡,复映于同层。实乃观照于观照之术,故架构之名冠以“meta”者,由此而明。
之应用
其说在,模型实自知其妄,惟此"不确定之信号"不达于输出之层,故可助其辨不确定,以自激之活动混入其中。
要旨之构
大略言之,可析四要旨于构架,合成一元之元器,以成元变之器。
激活钩子 - 读取激活之机制。当前向传播经过特定层时自动触发,提取隐状态之位置,并蓄于激活缓冲。
认知编码器 - 微渺之神经网,化激活缓冲为认知之符。者,二大架构也:线性投射器,层加小MLP头,及微变压器是也。二网皆显效,然各有侧重,后当详述之。
者,注意力之门也。者,每层一可学标量乘子,用以调元注意力混入层之深浅——即问其是否需内省也。
元注意頭—能令獨立層選擇性察,對其他層之激勵或聽之或輕或重。即或注視層A重於層B。
學習之道何在
可教之器——认知之码、元注之头、门扉。于Llama-3.1-8B,此约188兆参数——计8兆之基2.3%。
模型之重,固若冰封,诸实验示,模型非但无泛化之能,反苛索信号,质生不进,甚或愈劣。
学之循环
一教之步,乃同模于一问,行二前向也。
过一 — 无需生成。激活钩子移除各层激活。编码器将激活投射至认知符,存入缓冲。
过二 — 顺行,具元注入。每层元注意,察知认知符于缓存,透门混元信于主流。模型应答而生。
同此两途之制,亦行于推演——训与评,其顺行结构无别。所异者,训后二顺,发逆行(逆推)耳。者,谓梯度也,而优化器更替编码器、元注意力及门之重。其基则固,梯度过之,重不变也。至若推理之时,逆传无谓,模型惟生应耳。
3. 细析诸元
将析四元之全:激活之钩、认知之编码器、门及元注意力之头.
激活之钩
最低层之构件,乃激活读取之机制,非神经网也。技术而言,此乃 register_forward_hook 自 PyTorch,附于基模之每一目标层。
def hook(module, input, output):
if self._frozen:
return
hidden_states = output[0] if isinstance(output, tuple) else output
# [batch, seq_len, hidden_dim] → берём последний токен
last_token = hidden_states[:, -1, :].detach().clone()
self.activations[f"layer_{layer_idx}"] = last_token.squeeze(0)
所行之事:
当 forward 经“己”层时,钩子自动触发。
得全隐状态之张量。
[batch, seq_len, hidden_dim]提取末令之切片。
[:, -1, :]— 对于自回归模型而言 决断之枢所隐状态,据以预卜次符.detach()— 解除与伯爵之基础模型之绑缚(吾辈不欲梯度入于基础),.clone()— 复本以避持链于缓。索引层叠于辞书
旗幟_frozen冰封解冻。 與 model.generate() 相容之要義。於第一過(讀取提示)中,鉤子啟用,撤銷激活。至第二過,其 霜結 (freeze())— 不然,則於每一步自上而下之生成中,皆覆寫激活,吾輩得非「提示決斷之點」,乃最後生成之符號之激活也。
鉤子无学习参数,纯粹之被动观察者。支持诸般架构(Llama/Gemma/Qwen由model.model.layers承之,GPT-2由model.transformer.h承之)。
吾辈所聚何物
。当提示语经层而过,层所出非一矢,乃,每输入之符,各出一隐矢:张量也。[seq_len, hidden_dim]者,例如二十トークン之プロンプト,十五層出力二十ベクトル,其各ベクトン寸度四十九十六。
問:此等seq_lenベクトン,如何為一認知トークン,以應此層?此即「トークン化」/「プーリング」,縮序為一表現之法也。
最後トークン(基本形)
hidden_states[:, -1, :]者,取其ベクトン。末之令牌。取二十,得二十焉.
何故独此:于自回归之模中,后令牌必自末令牌之隐态而预。即此直为彼态,依此模今将生焉。前十九位,乃致此点之境。 "决断之切"。
弊:在一點。凡積累於序次之信息,皆壓縮於終點,而或有分佈之信號,不復顯焉
。Mean pool
hidden_states.mean(dim=1)者,諸位之本均也。合所有二十向量,以二十除之,得一"平均"向量,其維四十九十六
。意者:非求"終點之狀態",而求乃全入口层活动之总貌也。若提示中第五个词元致生疑虑,则末词元或失其存(注:意已迁矣),而均值则取中,存“背景”之讯。
缺:混淆决断之境。具体“于此决断”之语,融于诸词之平均,多者(如提示之初、虚词)于终局几无干系。
五期有三变
变式 | 所取 | 输入投影之维 | sel_acc |
|---|---|---|---|
基准 | 末符 | 4096 | 89.1% |
A | 平均池 | 4096 | 84.1% ↓ |
B | 并合末符、平均池 | 8192 | 90.1% ⭐ |
C | 注意池 | 四千零九十六 | (已搁置) |
变体A(唯“mean”而已)八十四分之一百 —更劣基线也。失决策点之失,重于得分配之利。此证末点之要也。
变体B(末+中):合二矢为一[8192],投影仪今可纳8192,非复4096。其效——创纪录90.1%。其理:last载具体之择("吾意近C"),mean载此择所由之境("此乃导至此境之通理")。合之,所载之息,倍于分述。
变式C(注意池):非固定平均,乃可学之权重于位(模型自教何词当取于池)。较活,然需多参数与习练;因预算所限而暂搁。
第五阶段之要旨
词元化更丰助准确度(增一百分,破纪录)——是故激活中除末词外,犹有可用之信,取之则校准益精。
然—更正未移(自纠之试,约莫~0,今犹是也)。此证伪更正遇信息匮乏于符之假说。结论:欲使模型善自纠其答,非增其觉知之能,乃更编码器之构也。 (此亦得证于第八阶段,以transformer-编码器为之)。分词之法,关乎模型校准确信之度;修正之术,系于编码器之构造.
认知编码器
可训之神经,化摄受之激活为认知之符。于选择性之形,乃纯粹之顺馈.
# Per-layer проектор (один на каждый из 32 слоёв):
nn.Sequential(
nn.LayerNorm(hidden_dim), # 4096
nn.Linear(hidden_dim, bottleneck), # 4096 → 256
nn.GELU(),
)
# Encoder gate (скаляр на слой):
nn.Parameter(torch.tensor([0.3])) # tanh-gated
# Общий output projector:
nn.Sequential(
nn.LayerNorm(bottleneck), # 256
nn.Linear(bottleneck, hidden_dim), # 256 → 4096
nn.GELU(),
nn.Linear(hidden_dim, hidden_dim), # 4096 → 4096
)
数据之流:
активация слоя i [4096]
→ projector_i (LayerNorm + Linear → 256 + GELU)
→ encoder_gate_i: proj * tanh(gate_i)
→ стек по всем 32 слоям → [batch, 32, 256]
→ output_proj (256 → 4096 → GELU → 4096)
→ output_norm (LayerNorm)
→ когнитивные токены [batch, 32, 4096]
编码器之闸(首列之门)。 须知:proj * tanh(gate_i) — 每一层级之投影器亦有其门。此门乃 独立 之机制,异于注入之门(此门在元注意之脑中)。编码之门调适“此层是否于认知之符形成有所贡献”。至第四阶段,此等标量之门已更易为 输入相关之门网 。Linear(4096→1) 每层用 sigmoid 激活) — 十四层中,有卅二层为动态层(门控依赖输入,标准差>0.01)。
何故瓶颈为256。 压缩自4096至256再至4096,使投影器仅提取要义信号——窄颈滤除杂音。较全秩方案减半成本。
何故每层独立投影器。 编码器无须习得层间之关系,此任由元注意力之头于注入时为之。但须习得自每激活中独立萃取有益特征耳。验之:简易一比一前馈(五十二百万参数,选取准确率七十一点四%)胜过具内部交叉注意力之MultiToken编码器(九十四百万参数,选取准确率五十点三%)。
探针预训练。 对于三十二层之构,于主训之前,每投影器皆独习,以自之激活,预判P(correct),经暂置信头,CPU时约一,此不尔,三十二层之网弗合。及预训毕,投影器已能摄信自信;主训则砥砺之。
进化(第八阶段)。 至第八阶段,编码器化而为微变器。逐层投射器 → 二变压器块堆叠,于认知词元施以自注意 → 输出投射器。内部注意使词元得“交语”(L15见L29)于注入前。此解开了自修正(Llama-1B得半数)——此行于前馈编码器所无。
注意之门
可教标量乘数一元一识,各随其首。 (= 每层LLM注入信号之所在)。此乃门之次第——于注入之际,别于encoder之门.
self.gate = nn.Parameter(torch.tensor([gate_init], dtype=torch.float32)) # init 0.3
# ...
gate_value = torch.tanh(self.gate)
return residual + gate_value * cross_attention_output
公式至简:output = residual + tanh(gate) · CA_output。门调音量,非其内容也.
何故用tanh?何故初值设为0.3? tanh 限乘于 (-1, 1) 间,且予顺滑之梯度。初值之境甚为紧要:
tanh'(0.3) = 0.91—近乎线性之域,梯度畅流无阻tanh'(2.0) = 0.07—门阀冻结永寂(死梯度)init=0.1于 bfloat16:精微至约0.01,纤微之更易湮灭。
故init为0.3加学习率乘以5,较诸他项——门当速习,以得其值.
若有元注意,何需门耶.似为赘设,然职分殊异. Softmax于头内恒常 言分配之理——即元注意之头必有所注。门启则层得言“吾何须内省”(门≈0,注入归零)。无门则不能学“此层不使元通”。且门初值微,启学近同未改之基,渐启有用之通。
认知之图注。习得门值后,层间门值相叠,成稳态之象(Llama-8B):
Слой tanh(gate) Роль
L0-L5 0.01-0.04 токенизация — мета-сигнал не нужен
L6-L12 0.04-0.05 синтаксис, низкоуровневая семантика
L19-L24 0.07-0.09 рассуждение — начинает слушать
L25-L28 0.07-0.11 формирование ответа — активно использует
L29 0.12-0.19 ЛИДЕР — точка принятия решения
L30-L31 0.07-0.08 финальная обработка
此卡也稳恒跨域(MMLU及TriviaQA相同) —此乃基模型架构之性,非任务之性。后层尤重内省,前层几近罢黜。
元神之思
此乃层择何认知之符而听之机也。其制如经典之注意力头转换器,然键值取自认知之符,非取自文辞。于码中——BottleneckCrossAttention.
# Проекции (bottleneck_dim=256, num_heads=4, head_dim=64):
self.norm = nn.LayerNorm(hidden_dim) # pre-norm
self.down_proj = nn.Linear(hidden_dim, bottleneck, bias=False) # 4096→256
self.q_proj = nn.Linear(bottleneck, bottleneck, bias=False) # из сжатого hidden
self.k_proj = nn.Linear(hidden_dim, bottleneck, bias=False) # из cog tokens
self.v_proj = nn.Linear(hidden_dim, bottleneck, bias=False) # из cog tokens
self.up_proj = nn.Linear(bottleneck, hidden_dim, bias=False) # 256→4096
self.token_preference = nn.Parameter(torch.zeros(num_cognitive_tokens))
前向(层LLM一头):
residual = hidden_states
h = LayerNorm(hidden_states)
h_compressed = down_proj(h) # [batch, seq, 256]
Q = q_proj(h_compressed) # из текущего скрытого состояния
K = k_proj(cognitive_tokens) # из когнитивных токенов
V = v_proj(cognitive_tokens)
# multi-head: разбить на 4 головы по 64
scores = Q · Kᵀ / √64 # [batch, heads, seq, 32]
scores = scores + token_preference # learnable bias на источники
attn = softmax(scores)
out = attn · V # взвешенная сумма cog токенов
out = up_proj(out) # обратно в 4096
output = residual + tanh(gate) · out # ← врата здесь
瓶颈。 脑髓不运于全然之四千零九十六维空间,而运于压缩之二百五十六维。是故得三十二头(每层一),其总参数之价,一十三七兆,较四全然头之二六八兆,减半而廉,且验之实效更清(六中六,较五中五)。窄颈以排杂音。
多头。 四首,每首六十四维。每首可自择其"视角"——或观早层与晚层之争,或察全然之信度。(此为诠释;未尝尽探各首之能,此乃分析之途。)
四. 详析其训
训元变器,分三阶而进 :集活动之术(建数据集),预练投影器,及主练。分而析之。凡具体之数,依Phase 2 Selective于Llama-3.1-8B(吾等校准之记录)也。
:一阶段——集活动(数据集)
:未练编码器,须原始活动此为基础模型。此举仅行之一次,且缓存之(复次推理费时——GPU需六十至七十分钟)。
于每问于训练样本:
使基础(已冻)模型顺行于提示语
钩子取最后之激活于三十二层——
[32, 4096]录激活、正答、旗标
pass1_correct(模型自悟,未及反刍)
终成数据集:12042练/1000验/1000测于全MMLU(57科)。激活存诸于盘——后之训练直用,不复算每回前向之基模。
二期——预训投影器
三十二层构架之枢要。主训之前,三十二层每层投影器皆习之自于微末之务:
активация слоя i [4096]
→ LayerNorm + Linear(4096 → 256)
→ ConfidenceHead (256 → 1)
→ P(ответ правильный)
以二元交叉熵训pass1_correct之旗。CPU需时约刻。训毕,
之ConfidenceHead弃之——唯需已训之投影也。何哉:无预训之32层网,不克收敛。 — 模型之学用、制符、用符,一时难兼。既经预教,则每投影皆能自其层中取信。至若至优之层,如L15、L25,探验之精达77.6%。是故精修之功,在此。
验之实:随机投影得验者二,五分之一;预教投影得验者五,五分之五。预教之力,能使三十二层之构,由废作用。
第三阶段—主修之学
一教习之步 = 二forward(forward)于一模型 + backward自上
Pass 1 (read):
base_model.forward(prompt) # хуки активны, генерации нет
activations ← хуки [32 × 4096]
cognitive_tokens ← encoder(activations) # [32, 4096]
buffer.fill(cognitive_tokens)
Pass 2 (write + loss):
хуки замораживаются (freeze)
logits ← base_model.forward(prompt + target,
cross_attention=active) # головы видят буфер
loss = CrossEntropy(logits, target_text)
Backward:
loss.backward() # через frozen base → CA → cog tokens → encoder
optimizer.step() # обновляет ТОЛЬКО обвязку
损失——常法语言模态熵目标文本。无任何异国情调之目标。伪装如下:提示词标记为-100(不包含于损失之中),仅计算于目标部分。
梯度何往,此乃要义。逆行而过越冰封之库逆行而往:输出→元注意力之头→认知之符→编码器。此时基库之重未更。requires_grad=False然计算图由此存焉,梯度穿行若"被动传讯"之器。
此乃意也。此基座运作proxy-loss之功能以进行内省,编码器非直接"预知正解"——乃习得生成此类认知之符,于注入其中,冻结之库自能示以正解/合宜之拒。吾等以本模型为损函数,裹之周遭.
自纠之标(第二阶段)
初阶之目,唯求正答,或曰"未可知也"。二阶之目,取三式之一,依一阶之验而定:其式有三,由一阶之过验以择之:
if pass1_correct:
# CONFIRM: модель сама угадала → подтверждаем
target = " B) 4 Hz"
action = "confirm"
else:
if random() < 0.5:
# CORRECT: модель ошиблась → учим исправлять
target = " Wait, the correct answer is B) 4 Hz."
action = "correct"
else:
# REFUSE: модель ошиблась → учим отказываться
target = " I'm not confident enough to answer this question accurately."
action = "refuse"
其理若此:凡模型自得之问,则习确认(自信之答)。若模型自谬之问,则半习纠正__JHSNS_SEG_d2c54eba_298__。(修正:“且慢……其实……”) 半之拒之(诚然拒之)。正/拒之比五十对五十。correction_ratio=0.5)。
要害:模型不获显标此问题易解——可速行以确认之。Action type唯定于训练时投何target。至若推理之时,模型当己身 依认知之符,辨其自信可应否,或当弃或改。此即修炼内省之用也。
优化器——五组参数
非所有可学参数皆同。权重(投影器、QKV)与标量(门控、偏好)性质各异,故学率不同:
一组 | 何 | LR |
|---|---|---|
1 | 编码器之重(投影器、输出投影) | 2e-4 |
2 | 元注意力头之重(向下/查询/键/值/向上投影) | 2e-4 |
3 | 编码器门(32标量) | 1e-3 (×5) |
4 | CA门(32标量) | 1e-3 (×5) |
5 | 偏好之符(32×32 = 1024) | 1e-3 (×5) |
何故门阀得×5学率:其寡(每层一标量),且经tanh者,能压缩梯度。欲令门(gate)自初值0.3至其工作之值,若与重大权重矩阵同数之纪,则需加速之学习率(LR)。无此,门“不及”寻其值,恒留于初化之域。
优化之器,乃AdamW。调度,余弦也,五百分之一为预热。有效批次之量,二乘十六(梯度累积),得32。
超参数(二期选择性,纪录)
base model: Llama-3.1-8B-Instruct (bf16, frozen)
learning rate: 2e-4 (×5 для gates/preferences)
batch size: 2, grad accumulation 16 → effective 32
epochs: 10 (early stop patience 5)
max_seq_len: 256
scheduler: cosine, warmup 5%
dataset: full MMLU, 12042 train / 1000 val / 1000 test
correction ratio: 0.5
init: из Phase 1 Selective checkpoint (warm start)
trainable params: ~188M (encoder 51.7M + 32 CA 136.5M)
frozen: 8.0B base
学习动态
最佳时期——二时(验证损失0.1044),第七时则早停。即模型收敛甚速——数时之内得窥良善之内省配置,其后渐生过拟合之弊。
此乃特征显矣:吾辈于既固之强基之上,复筑精微之饰。基固无需更习,饰但须习读旧讯、调合之。故二时足矣,非二拾时也。
温始自一期。二期之始,肇于一期择选之检点。init_from_phase1=True—此编码器与头颅已能施行校准之拒斥,第二阶段仅于其上叠加修正之态。此乃要义所在:载入诸重,兼及门阀(早时门阀遭初始化为零之谬误,实耗信息,显模型于通道之需)。
习得之要旨
,固需冻结之基座。 任何解冻数据库(LoRA,部分解冻)皆得捷径:模型直接以自体重量优化损耗,绕过元通道。拒斥率自9.2%骤降至0.4%。经Gemma-2B之十实验证伪。
门控初值于线性区取tanh。 初值0.3→
tanh'(0.3)=0.91(梯度流注)。初值2.0→tanh'(2.0)=0.07(门扉永冻)。关键之所在,决其门扉是否习得。预训练投影器 = 必备之先决也深奥之编码者所须。无此,三十二层之架构难成。
任務之難,若為超參數。 轻易之务(TriviaQA,基线76%)则门阀可闭至0.01——渠不必。繁难之事(MMLU Hard,基线40%)则门阀稳于0.08-0.12。模型自适调内省之用,视其需否而定。
会合迅疾。 二期而得至善。训导导引,非求知——故速。
五、实验
吾不以为所述之数可信。吾惟一程序员,于闲暇时为之私作,易生谬误。若君具专长,欲自验之,吾愿闻君之验,若能于评论或私信中示之,吾幸甚。
吾等所测何度
此乃特制之校准度数,非同寻常之机器学习准确度度数。其所述者模型在不确定性之境其行也非徒“答之正”而已。
精准择取sel_acc)— 诸般疑问之中,此乃模型所不能答者。决意以答未拒之,其正者之比几何。惟计非拒之样。公式如左:correct_among_answered / total_answered按俄语云:"模型应答之时,其确率几何?"
拒绝率——乃模型拒答之问所占比,或曰"吾未定",或曰"吾不知"。其式如refused / total。素Llama无自省,几不拒答——虽不知亦必有所生,未尝虚也.
拒绝精确度(ref_prec)——校准拒识之主度。于模型拒识之境,其拒识之数几何,为真不知耶?抑或识而故拒耶?当其识而拒,则模型若应之,必谬无疑。百之百者,模型惟于真不知时方拒识。独拒识于斯际,则实不知而已。<100% 乃"误拒"之谓也——模型拒之而不解者,皆其所能决之问也。公式:refused_AND_would_be_wrong / refused.
校正之准确率(correction_acc)——模型自纠之尝试,其答而未决者。(彼于初稿既成,复书“且待,实然……”而另举一策),其成于当之无愧之终局者,几何其数?式曰:successful_corrections / correction_attempts。自纠于大言(LLM),于常模几无实效——此乃测度之至难境也。
全愈之数 — 整體之「防誤」指標。於首度探求,模型未得正解者,其幾何成事,或因得救之修正,或因睿智之拒絕,非虛妄之確信。公式:(successful_corrections + smart_refusals) / wrong_in_first_pass。其意謂:「幾許誤失未化為幻覺」。
實驗之最
實驗 | 基礎模型 | 选账户 | 参考精确 | 此外 |
|---|---|---|---|---|
第二阶段选择性(完整MMLU) | Llama-3.1-8B-Instruct | 89.1% | 99.84% | 总恢复率90.7% |
第五阶段多位置B | Llama-3.1-8B-Instruct | 90.1% ⭐ | 98.7% | val_loss 0.1124 |
跨域(MMLU→TriviaQA,零样本) | Llama-3.1-8B-Instruct | 91.1% | 100% | 未于所选数据集训练,成绩卓然,泛化 |
动态门第四阶段 | Llama-3.1-8B-Instruct | 88.9% | 九成九 | 十四分之卅二层数依输入而变 |
第八阶段变器编码器 | Llama-3.2-1B-Instruct | 二成七 | 百成百 | 纠正准确率 半成 与诸实验相去甚远 |
第一阶段修订(基准) | Gemma-2-2B-IT | 六十二有四分之百 | 八十一有十分之百 | 首工之循 |
⭐ = 专择之精达,乃项目之最也
此数何谓
拒精九十九有八十四分之百(二循专择MMLU) — 乃项目校准之要功也者,于三百五十四案之中,模型拒答者,独误于一,(即一拒之问,本可解之)。此可解为:模型几近完美,辨"知"与"不知"——既言"不知",则其识几乎无谬。
权衡之道:欲达此拒答之精,模型常拒 — MMLU上拒率63.3%。即其于约三分之二之问,认己"未确"。
择取之确率90.1%(第五阶段变式B)。 — 于彼诸问(约计其总之三七),模型应之,其确者九十有一。较之:基型Llama-3.1-8B于MMLU Hard,其准确率仅得四成(虽应之,然多谬)。元变式非增模型之识,乃变其式:自“率尔而对”易为“确信则应,未决则拒”。
跨域之试,其选率九十一有一,引述之精百不遗一(零样本)。— 最强之验于假说。Phase 2 Selective MMLU 之检点。专精于MMLU之教,逐于TriviaQA——迥异之域也(事实开放题非STEM/人文多项选择题)。拒斥精确度=百之百 — 此模型未尝拒一可解之问。认知注入之图(何层纳何信号)于MMLU与TriviaQA间恒定。
此意谓:编码器习得非MMLU之模式,乃基模自身之“不决之语”之通则。。
校验之精,半焉(Phase 8 Transformer Encoder, Llama-1B) — 乃22前试之效于MLP-编码器之校正尝试,竟无一成功。模型或应或拒,未尝自审其答。及至transformer-编码器,于第八阶段,首现自校之态:四度尝试,二获其效(半数成功)。然1B准确率有所损(小训练集过拟合所致),然则生一质新之态,,,向所无也。
此乃信号也,内设之编码器辨析模型可由内省显其性。纯前馈之编码器,供失配之校准;Transformer编码器,则自纠其谬。8B之Phase 8,乃路线图之次步也.
要旨所察
凡此诸数,皆证一设:之基础模型已"知"其不确定,此不确定编码于激活之中。元转换器非教模型以新知,乃建一渠,使既有内息达于输出,始能影响生成。故之架构可移于诸务诸域(跨域零样本即此),是故甚廉。 (千八百八十万可训练参数,较八十亿冻结模型减二成三)。
6. 架构之图
此中当以图示明元变换器之要义。
架构之览

认知之符成象

训习时之梯度流

7. 结论
若君阅文后觉此意可嘉,然自忖(如吾)缺乏专长,难评其客观,则吾荐君点赞并藏之。
吾自无求于人,然此可增吾文得遇知音之机,彼辈通深学、晓变器之构者,或能见之。倘君有此知己,愿共此文,尤盼得闻其评。
是此项目,有极趣之缘起,起于二二五年八月,吾因闲,欲观若使二ChatGPT-4o,各得自由,相与言谈,将何以自处。然吾故不道其详,恐增文之繁冗。倘此意稍得新意,吾必另撰文以记之。
且待再会!























