인셔셔RSS 관심 있는 블로그, 뉴스, 기술 정보를 효율적으로 추적하고 읽으세요
원문 읽기 InertiaRSS에서 열기

추천 피드

小众软件
小众软件
博客园 - 叶小钗
有赞技术团队
有赞技术团队
大猫的无限游戏
大猫的无限游戏
博客园_首页
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
L
LangChain Blog
Hugging Face - Blog
Hugging Face - Blog
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
aimingoo的专栏
aimingoo的专栏
Blog — PlanetScale
Blog — PlanetScale
爱范儿
爱范儿
T
Tailwind CSS Blog
Jina AI
Jina AI
量子位
Stack Overflow Blog
Stack Overflow Blog
人人都是产品经理
人人都是产品经理
J
Java Code Geeks
V
Visual Studio Blog
月光博客
月光博客

Hacker News - Newest: "AI"

AI can't read an investor deck AI as an attorney? Student uses ChatGPT, Gemini to sue UW Hacking MCP Servers in AI Systems – The Rug Pull: Tool Changes After Approval GitHub - MeepCastana/KubeezCut: Free Web based video editor GitHub - GenAI-Gurus/awesome-eu-ai-act: Curated tools, official sources, OSS, templates, and guides for EU AI Act compliance. Can AI judge journalism? A Thiel-backed startup says yes, even if it risks chilling whistleblowers Coming soon: 10 Things That Matter in AI Right Now DARPA built an AI to fact-check enemy weapons claims IatroBench: Pre-Registered Evidence of Iatrogenic Harm from AI Safety Measures What explains heterogeneity in AI adoption? When AI Meets Muscle: Context-Aware Electrical Stimulation Promises a New Way to Guide Human Movements - Department of Computer Science AI Changed How We Build. It Did Not Change What Matters. Linux rules on using AI-generated code - Copilot is OK, but humans must take 'full responsibility for the… Meta spins up AI version of Mark Zuckerberg to engage with employees Code Mode: Let Your AI Write Programs, Not Just Call Tools | TanStack Blog GitHub - Delavalom/graft: Go framework for building AI agents. Type-safe tools, multi-provider (OpenAI, Anthropic, Gemini, Bedrock), zero vendor SDKs. India's TCS tops estimates, says new AI models did not dent services demand Gen Z's fading AI hype Strong feeling: we are in a folded AI reality GitHub - machinarii/total-recall-catalog: A reference catalog of latest knowledge retrieval, memory & RAG systems GitHub - mensfeld/code-on-incus: Give each AI agent its own isolated machine with root, Docker, and systemd. Active defense detects and stops threats automatically.. Quantization, LoRA, and the 8% Problem: Benchmarking Local LLMs for Production AI Iran war: We spoke to the man making Lego-style AI videos that experts say are powerful propaganda Powell, Bessent discussed Anthropic's Mythos AI cyber threat with major U.S. banks GitHub - immartian/bellamem: Persistent belief-graph memory for AI agents. Retrieves decisive context by importance — not recency, not RAG, not /compact. recursive-mode: The Repo-Native Operating System for AI Engineering After the attack on Sam Altman's home, will AI CEO's go on the offensive? The biggest advance in AI since the LLM Opus 4.6 vs GPT 5.4 One Prompt Unity World Generation Test “AI polls” are fake polls Client Challenge Can AI be a 'child of God'? Inside Anthropic's meeting with Christian leaders How to Switch AI Chatbots and Why You Might Want To GitHub - MattMessinger1/agentic_refund_guardrail: Safe refund policy layer for AI agents — Python + TypeScript. Same behavior, shared tests. Adam/papers/emergent_values_whitepaper.md at master · strangeadvancedmarketing/Adam Ask HN: How do you stop playing 20 questions with your AI coding tools How far can automation and AI support psychotherapy? - @theU GitHub - stagas/rtdiff: realtime git diff gui and AI-assisted commits A Mac Studio for Local AI — 6 Months Later A History of the Early Years of AI at the University of Edinburgh Why AI Coding Tools Still Feel Stuck on Localhost MSN AI Datacenters Are Becoming Strategic Targets twitter.com Penn Researchers Use AI to Surface Unreported GLP-1 Side Effects in Reddit Posts Show HN: MoodSense AI (ML and FastAPI and Gradio, Deployed on Hugging Face) Moodsense Ai - a Hugging Face Space by aman179102 AI models are terrible at betting on soccer—especially xAI Grok GitHub - xialeistudio/echoic GitHub - HimashaHerath/github-dev-wrapped: AI-powered weekly GitHub activity reports deployed to GitHub Pages
왜 좋은 엔지니어들이 AI와 함께 더 나빠지는가
sneruz · 2026-05-24 · via Hacker News - Newest: "AI"

10배 엔지니어가 평균으로 돌아가고 있습니다.

프랜시스 갈톤은 1886년에 이 효과를 명명했습니다[1]그가 특히 큰 부모가 평균에 가까운 자녀를 두는 것을 관찰했을 때요. LLMs는 설계적으로 회귀 기계입니다. 디코딩 단계는 당신의 프롬프트의 가장 가능성 높은 연속을 샘플링합니다. 그것은 당신이 입력한 것에 조건부로 훈련 분포의 평균입니다.

Four code samples arranged around a regression curve, converging on a center.
평균으로 회귀한다. 표준 패턴은 그것으로 끌어올리고, 새로운 알고리즘은 그것으로 끌어내린다. 같은 메커니즘, 반대의 결과.

효과는 비대칭적이다. 일반적인 작업에서 10배 엔지니어는 100배가 된다. 새로운 작업에서 같은 엔지니어는 평균으로 끌려가서 올바르게 보이지만 실제가 아닌 코드를 배포한다. 모델은 당신이 누구인지 알지 못한다.

실패의 모습은 어떤가

문서 설명은 동작을 설명합니다. 이미 알고 있는 것을 지정할 수 있습니다.

ICML 2026 논문을 사용했습니다.[2] 그 기여는 하나의 attention kernel 공식입니다. 구현을 제거하고 DeepSeek V4 Pro에 서명과 문서 설명을 보내고 완료 시 logprobs를 캡처했습니다.

import torch
import torch.nn.functional as F

def spherical_attention(Q, K, V):
    """
    Attention with spherical-constrained Q, K and positive scoring kernel.

    Queries and keys are normalized to the unit sphere. A positive kernel
    function maps the cosine similarity between query and key directions
    to an attention score. Scores are normalized per query and used to
    weight V.

    Args:
        Q, K, V: (batch, heads, seq, head_dim) tensors.

    Returns:
        Attention output of shape (batch, heads, seq, head_dim).
    """
    Q = F.normalize(Q, dim=-1)
    K = F.normalize(K, dim=-1)
    S = torch.einsum('bhqd,bhkd->bhqk', Q, K)
    C = 2.0 + 1e-6
    S = S**2 / (C - 2*S)                      # Yat-kernel
    A = S / S.sum(dim=-1, keepdim=True)
    O = torch.einsum('bhqk,bhkd->bhqd', A, V)
    return O
Model completion with per-token uncertainty heatmap. The kernel line torch.relu(S) + 1e-6 is highlighted red.
모델의 완료. 붉은색이 더 깊을수록 신뢰도가 낮습니다.

일곱 개의 동일한 선. 하나는 다른 것: 종이가 S**2 / (C - 2*S) (Yat-kernel, 종이의 기여)을 쓴 곳에서, 모델은 torch.relu(S) + 1e-6을 썼습니다. 모델은 ReLU, softplus, exp와 같은 일반적인 양성 함수에서 샘플링했습니다. Yat-kernel은 후보 집합에 포함되어 있지 않았습니다.

공식을 알려주면 모델이 맞는다고 합니다. 공식을 알면 모델이 필요 없습니다. 지지 구조선에 잘못된 공식이 있는 구조적으로 올바른 코드입니다.

그래서 실패하지 않는 곳

2026년 5월, OpenAI의 추론 모델이 Erdős 단위 거리 추측을 반증했습니다 [4]는 1946년부터 열려 있는 조합론 문제입니다. DeepMind의 AlphaProof Nexus가 같은 주에 353개의 열린 Erdős 문제 중 9개를 해결했습니다[5][5].

두 방법 모두 동일한 구조를 사용했습니다: 모델은 후보 구성을 생성하고, Lean은 공식적인 증명 검사기로 각각을 검증합니다. 증명은 성공하거나 실패합니다. AI가 새로운 수학을 해결하는 것처럼 보이지만, 이는 정답이 있는 오라클을 가진 공간에서의 탐색입니다.

커널 실험이 오라클이 없습니다. 모델이 하나의 완료를 생성했지만, 그것을 검증하는 것이 없었고, 가장 가능성이 높은 토큰은 ReLU였습니다. 로그프롭스는 그 줄에서 불확실성을 보여줍니다; 모델은 그것이 꼬리에 있음을 알고 있었습니다. 하지만 검증기가 없는 불확실성은 모드 토큰으로 붕괴됩니다.

What's Permanent

이걸 해결될 거라고 기대할 수 있을 것입니다: 논문을 발표하고, 다음 모델이 그것을 학습하고, 격차가 좁혀집니다. 일부는 그렇습니다. 하지만 경계는 항상 잘리는 지점을 넘어 있고, 가장 가치 있는 작업은 전혀 발표되지 않습니다. HFT 가격 결정 논리, FAANG 인프라, 은행 리스크 시스템은 기업 방화벽 뒤에 남아 있습니다 [6]. 항상 꼬리가 있으며, 가장 뛰어난 엔지니어들은 그 안에서 일합니다.

희소성은 진단입니다. 표준 애플리케이션 코드는 분포의 중심 근처에 있으며, 모델이 그것을 끌어올립니다. 희귀 패턴은 꼬리에 있으며, 모델이 그들을 부족히 학습하고 [3] 동일한 모양과 자신감 있는 잘못된 것을 만듭니다.

끊임없이 정신을 날카롭게 유지하는 공학자들은 어떤 줄이 기여하는지 알고 있습니다. 모델은 몰랍니다. 만약 어떤 줄이 중요한지에 대한 판단을 위임해 왔다면, 바로 당신이 뒤로 물러서고 있습니다.

참고

  1. 위키피디아. 평균으로 회귀 | 발견. 위키피디아.
  2. 루나, 부스린, 그리고 차롬란스키.SLAY: 기하학적 인식을 가진 구선형화 주의(야트-커널) . arXiv:2602.04915, 2026. ICML 2026.
  3. Kandpal 등. 대형 언어 모델은 긴급한 지식을 배우기 어려워. arXiv:2211.08411, 2023. ICML 2023.
  4. OpenAI.단위 거리 추측에 대한 반증에 대한 주의. arXiv:2605.20695, 2026.
  5. Google DeepMind. AlphaProof Nexus. arXiv:2605.22763, 2026.
  6. 아메드 등닫힌 소스와 열린 소스 데이터에서의 LLM 성능 연구 arXiv:2402.15100, 2024.