












10倍エンジニアは平均に逆戻りしています.
フランシス・ガルトンは1886年にこの効果を命名しました[1]、彼が非常に背が高い親が子供が平均に近いことに気づいたときです。LLMsは構造上回帰機械です。デコードステップはあなたのプロンプトの最も可能性の高い継続をサンプリングします。それは訓練分布の平均であり、あなたがタイプしたものに条件付けられています。
影響は非対称的だ。一般的な仕事では、10倍のエンジニアは100倍になる。新しい仕事では、同じエンジニアは平均値に引きずられる形でコードをリリースし、見た目は正しく、内容は正しくないものになる。モデルはあなたが誰かを知らない。
ドキュメント文字列は振る舞いを説明します。あなたが既に知っていることを指定するしかできません。
ICML 2026の論文を使いました[2]誰の貢献が一つの注意核公式であるか。私は実装を切り離し、DeepSeek V4 Proにシグネチャとdocstringを送り、完了時にlogprobsをキャプチャした。
import torch
import torch.nn.functional as F
def spherical_attention(Q, K, V):
"""
Attention with spherical-constrained Q, K and positive scoring kernel.
Queries and keys are normalized to the unit sphere. A positive kernel
function maps the cosine similarity between query and key directions
to an attention score. Scores are normalized per query and used to
weight V.
Args:
Q, K, V: (batch, heads, seq, head_dim) tensors.
Returns:
Attention output of shape (batch, heads, seq, head_dim).
"""
Q = F.normalize(Q, dim=-1)
K = F.normalize(K, dim=-1)
S = torch.einsum('bhqd,bhkd->bhqk', Q, K)
C = 2.0 + 1e-6
S = S**2 / (C - 2*S) # Yat-kernel
A = S / S.sum(dim=-1, keepdim=True)
O = torch.einsum('bhqk,bhkd->bhqd', A, V)
return O
同じ形の線七本。一つだけ違う:論文でS**2 / (C - 2*S)(Yat-kernel、論文の貢献)と書かれている場所では、モデルはtorch.relu(S) + 1e-6を書いた。モデルはReLU、softplus、expといった一般的な正の関数からサンプリングしていた。Yat-kernelは候補セットに含まれていなかった。
式が与えられればモデルは正解する。式を知っていればモデルは不要だ。耐荷重ラインに間違った式がある構造的に正しいコード.
2026年5月、OpenAIの推論モデルがErdős単位距離予想を否定した[4]は、1946年以来開かれた組み合わせの問題である。DeepMindのAlphaProof Nexusが、[5]の同じ週に353のErdősの開かれた問題の9つを解いた。
両者は同じ構造を使用した:モデルは候補となる構造を生成し、Leanは形式証明チェック器でそれぞれを検証する。証明はコンパイルされるか、しない。AIが新しい数学を解いているように見えるのは、真の答えのオラクルを持つ空間での探索である。
カーネル実験にはオラクルがない。モデルは一つの完了を生成したが、それを検証するものは何もなく、最も可能性の高いトークンはReLUだった。ログプロブはその行に不確かさを示している;モデルはそれが尾端にあったことを知っていた。しかし、下游に検証者がない不確かさはモーダルトークンに収縮する。
これが自分で直ると思うかもしれない:論文を公開し、次のモデルがそれを学習し、ギャップが埋まる。一部はそうなる。しかし、先端は常にカットオフの先にあるし、最高の価値のある仕事は全く公開されない。HFT価格ロジック、FAANGインフラ、銀行リスクシステムは企業のファイアウォールの後ろに残っている[6]。常に裾があり、最優秀なエンジニアはそれで働いている。
希少性が診断です。標準のアプリケーションコードは分布の中心に近くにあり、モデルがそれを持ち上げます。希少なパターンは尾にあり、モデルはそれらを[3]十分に学習せず、同じ形をして自信満々に間違ったものを生成します。
鋭意を保つエンジニアは、どの行が貢献しているかを知っています。モデルは知りません。もし、どの行が重要かの判断を委ねてきたなら、あなたが後退しているのです。
このコンテンツは慣性聚合(RSSリーダー)によって自動集約されています。参考としてご覧ください。 原文出典 — 著作権は原著者に帰属します。