












十倍之才者渐趋中庸,
法兰西斯·高尔顿于1886年命名此现象[1],彼时觉异高之亲者,其子近于常。大语言模型本就为回归之器。解码之途,取提示最然续,此即训练分布之均,依汝所书而变。
其效非均。于常务,十倍之工成百倍;于新务,同工为之下坠,成均而所出之码,似是而非。模型不知尔为谁。
一注解述其行。汝所能言者,惟已知之事耳。
吾曾用ICML 2026之纸[二]其贡献乃一注目之核式。吾剥其实现,送DeepSeek V4 Pro以签名为docstring,复录其完成之logprobs。
import torch
import torch.nn.functional as F
def spherical_attention(Q, K, V):
"""
Attention with spherical-constrained Q, K and positive scoring kernel.
Queries and keys are normalized to the unit sphere. A positive kernel
function maps the cosine similarity between query and key directions
to an attention score. Scores are normalized per query and used to
weight V.
Args:
Q, K, V: (batch, heads, seq, head_dim) tensors.
Returns:
Attention output of shape (batch, heads, seq, head_dim).
"""
Q = F.normalize(Q, dim=-1)
K = F.normalize(K, dim=-1)
S = torch.einsum('bhqd,bhkd->bhqk', Q, K)
C = 2.0 + 1e-6
S = S**2 / (C - 2*S) # Yat-kernel
A = S / S.sum(dim=-1, keepdim=True)
O = torch.einsum('bhqk,bhkd->bhqd', A, V)
return O
七行如一,唯有一异:纸所书处。S**2 / (C - 2*S)(耶特核,论文之贡献),模型所书torch.relu(S) + 1e-6此模型取自常用正函数:ReLU、softplus、exp。Yat-kernel不在候选之列。
授之公式则得之。知公式则无需模型。承重之线代码结构虽正,公式却谬。
二零二六年五月,OpenAI之推理论理模型,证伪了爱多斯单位距离猜想。[四],乃组合之题,自一九四六年悬而未决。DeepMind之AlphaProof Nexus,于同周内解九题于三百五十三悬而未决之Erdős之题[5][5]。
二者所用之结构同:模型生候选之构,Lean,一形式证明之检,核之每一者。证明成则成,不成则不成。看似AI解新数学,实乃于有真谛之神谕之域中搜求。
核之实验无神谕。模型生一完成,无物验之,而最或然之符为ReLU。对数概率显其线之不决;模型知其处尾。然无验者之不确定,终归为最或然之符。
汝或期此自解:刊文于世,则次模因之而训,其隙自弥。然此亦半焉耳。盖前沿恒踞于截断之域,而至要之业,竟不彰于众。HFT定价之理,FAANG之基构,银行风险之系,皆囿于司垣之内[6]。恒有遗尾,而卓绝之工,实处其间。
稀有乃诊断之要。标准应用之码,居分布之中心,而模型提之。稀有之式,处尾端,模型未能深学之。【文言文翻译】 【三】乃作物与之形同,而自矜其谬。
工于持锐者,自知何线有功。模型则不然。若汝委决于何线为要,则汝自堕于退步矣。
此內容由慣性聚合(RSS閱讀器)自動聚合整理,僅供閱讀參考。 原文來自 — 版權歸原作者所有。