












10x 工程師正在回歸到平均值.
法蘭西斯·高爾頓於1886年命名了這種效應[1],當他注意到身高異常高的父母所生的孩子更接近平均身高。LLMs在設計上就是回歸機器。解碼步驟從提示中最可能的續接中採樣。那是訓練分佈的平均值,條件是根據你輸入的內容。
效果是不對稱的。在常規工作中,10倍優秀的工程師變成100倍。在創新工作中,同一個工程師被拖到平均水準,交付看起來正確卻不實際的程式碼。模型不知道你是哪一種.
文件說明描述了行為。你只能指定你已經知道的事項.
我使用了一篇來自ICML 2026[2]的論文,其貢獻是一個注意力核公式。我移除了實現部分,並向DeepSeek V4 Pro傳送了簽名和文件說明,然後在完成時捕捉了logprobs.
import torch
import torch.nn.functional as F
def spherical_attention(Q, K, V):
"""
Attention with spherical-constrained Q, K and positive scoring kernel.
Queries and keys are normalized to the unit sphere. A positive kernel
function maps the cosine similarity between query and key directions
to an attention score. Scores are normalized per query and used to
weight V.
Args:
Q, K, V: (batch, heads, seq, head_dim) tensors.
Returns:
Attention output of shape (batch, heads, seq, head_dim).
"""
Q = F.normalize(Q, dim=-1)
K = F.normalize(K, dim=-1)
S = torch.einsum('bhqd,bhkd->bhqk', Q, K)
C = 2.0 + 1e-6
S = S**2 / (C - 2*S) # Yat-kernel
A = S / S.sum(dim=-1, keepdim=True)
O = torch.einsum('bhqk,bhkd->bhqd', A, V)
return O
七條相同線條。一條不同:當紙張寫入S**2 / (C - 2*S)(Yat-kernel,紙張的貢獻),模型寫入了torch.relu(S) + 1e-6。模型從常見的正向函數中採樣:ReLU、softplus、exp。Yat-kernel不在候選集中。
當給予公式時,模型能夠正確處理。瞭解公式就不需要模型了。承重線上的程式碼結構正確,但公式錯誤。
2026年5月,OpenAI的推理模型推翻了Erdős單位距猜想[4],一個自1946年以來一直開放的組合數學問題。DeepMind的AlphaProof Nexus在[5]的同一週內解決了353個開放Erdős問題中的九個。
兩者使用相同的結構:模型產生候選的構造;Lean,一個形式證明檢查器,驗證每一個。證明要么編譯成功,要么失敗。看起來像AI解決新數學問題,實際上是在一個有真實答案的Oracle的空間中進行搜索。
核心實驗沒有神谕。模型生成了一個完成結果,沒有任何東西驗證它,而且最可能的標記是 ReLU。logprobs 顯示在那行上存在不確定性;模型知道它處於尾部。但由於下游沒有驗證器,不確定性會坍塌成模態標記.
你可能會預期這會自動解決:發表論文,下一個模型在它上面進行訓練,差距就會縮小。其中一部分確實如此。但前沿總是位於截止點之外,而最高價值的成果從未發表過。高頻交易定價邏輯、FAANG基礎設施、銀行風險系統仍然留在公司防火牆後面 [6]。總是有一些尾部,而最好的工程師就在這些尾部工作。
罕有性是診斷。標準應用程式碼位於分佈的中心附近,而模型將其提升。罕見模式位於尾部,模型在此處對其學習不足[3],並產生形狀相同且自信錯誤的結果。
保持銳利的工程師知道哪些線條承載貢獻。模型不知道。如果你一直在委派判斷哪些線條重要的任務,你才是那個在退步的人。
此內容由慣性聚合(RSS閱讀器)自動聚合整理,僅供閱讀參考。 原文來自 — 版權歸原作者所有。