












10배 엔지니어가 평균으로 돌아가고 있습니다.
프랜시스 갈톤은 1886년에 이 효과를 명명했습니다[1]그가 특히 큰 부모가 평균에 가까운 자녀를 두는 것을 관찰했을 때요. LLMs는 설계적으로 회귀 기계입니다. 디코딩 단계는 당신의 프롬프트의 가장 가능성 높은 연속을 샘플링합니다. 그것은 당신이 입력한 것에 조건부로 훈련 분포의 평균입니다.
효과는 비대칭적이다. 일반적인 작업에서 10배 엔지니어는 100배가 된다. 새로운 작업에서 같은 엔지니어는 평균으로 끌려가서 올바르게 보이지만 실제가 아닌 코드를 배포한다. 모델은 당신이 누구인지 알지 못한다.
문서 설명은 동작을 설명합니다. 이미 알고 있는 것을 지정할 수 있습니다.
ICML 2026 논문을 사용했습니다.[2] 그 기여는 하나의 attention kernel 공식입니다. 구현을 제거하고 DeepSeek V4 Pro에 서명과 문서 설명을 보내고 완료 시 logprobs를 캡처했습니다.
import torch
import torch.nn.functional as F
def spherical_attention(Q, K, V):
"""
Attention with spherical-constrained Q, K and positive scoring kernel.
Queries and keys are normalized to the unit sphere. A positive kernel
function maps the cosine similarity between query and key directions
to an attention score. Scores are normalized per query and used to
weight V.
Args:
Q, K, V: (batch, heads, seq, head_dim) tensors.
Returns:
Attention output of shape (batch, heads, seq, head_dim).
"""
Q = F.normalize(Q, dim=-1)
K = F.normalize(K, dim=-1)
S = torch.einsum('bhqd,bhkd->bhqk', Q, K)
C = 2.0 + 1e-6
S = S**2 / (C - 2*S) # Yat-kernel
A = S / S.sum(dim=-1, keepdim=True)
O = torch.einsum('bhqk,bhkd->bhqd', A, V)
return O
일곱 개의 동일한 선. 하나는 다른 것: 종이가 S**2 / (C - 2*S) (Yat-kernel, 종이의 기여)을 쓴 곳에서, 모델은 torch.relu(S) + 1e-6을 썼습니다. 모델은 ReLU, softplus, exp와 같은 일반적인 양성 함수에서 샘플링했습니다. Yat-kernel은 후보 집합에 포함되어 있지 않았습니다.
공식을 알려주면 모델이 맞는다고 합니다. 공식을 알면 모델이 필요 없습니다. 지지 구조선에 잘못된 공식이 있는 구조적으로 올바른 코드입니다.
2026년 5월, OpenAI의 추론 모델이 Erdős 단위 거리 추측을 반증했습니다 [4]는 1946년부터 열려 있는 조합론 문제입니다. DeepMind의 AlphaProof Nexus가 같은 주에 353개의 열린 Erdős 문제 중 9개를 해결했습니다[5][5].
두 방법 모두 동일한 구조를 사용했습니다: 모델은 후보 구성을 생성하고, Lean은 공식적인 증명 검사기로 각각을 검증합니다. 증명은 성공하거나 실패합니다. AI가 새로운 수학을 해결하는 것처럼 보이지만, 이는 정답이 있는 오라클을 가진 공간에서의 탐색입니다.
커널 실험이 오라클이 없습니다. 모델이 하나의 완료를 생성했지만, 그것을 검증하는 것이 없었고, 가장 가능성이 높은 토큰은 ReLU였습니다. 로그프롭스는 그 줄에서 불확실성을 보여줍니다; 모델은 그것이 꼬리에 있음을 알고 있었습니다. 하지만 검증기가 없는 불확실성은 모드 토큰으로 붕괴됩니다.
이걸 해결될 거라고 기대할 수 있을 것입니다: 논문을 발표하고, 다음 모델이 그것을 학습하고, 격차가 좁혀집니다. 일부는 그렇습니다. 하지만 경계는 항상 잘리는 지점을 넘어 있고, 가장 가치 있는 작업은 전혀 발표되지 않습니다. HFT 가격 결정 논리, FAANG 인프라, 은행 리스크 시스템은 기업 방화벽 뒤에 남아 있습니다 [6]. 항상 꼬리가 있으며, 가장 뛰어난 엔지니어들은 그 안에서 일합니다.
희소성은 진단입니다. 표준 애플리케이션 코드는 분포의 중심 근처에 있으며, 모델이 그것을 끌어올립니다. 희귀 패턴은 꼬리에 있으며, 모델이 그들을 부족히 학습하고 [3] 동일한 모양과 자신감 있는 잘못된 것을 만듭니다.
끊임없이 정신을 날카롭게 유지하는 공학자들은 어떤 줄이 기여하는지 알고 있습니다. 모델은 몰랍니다. 만약 어떤 줄이 중요한지에 대한 판단을 위임해 왔다면, 바로 당신이 뒤로 물러서고 있습니다.
이 콘텐츠는 인셔셔RSS(RSS 리더)가 자동으로 집계한 것으로 읽기 참고용입니다. 원문 출처 — 저작권은 원저작자에게 있습니다.