인셔셔RSS 관심 있는 블로그, 뉴스, 기술 정보를 효율적으로 추적하고 읽으세요
원문 읽기 InertiaRSS에서 열기

추천 피드

博客园 - 司徒正美
V
V2EX
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
IT之家
IT之家
Blog — PlanetScale
Blog — PlanetScale
A
About on SuperTechFans
月光博客
月光博客
T
The Blog of Author Tim Ferriss
宝玉的分享
宝玉的分享
Martin Fowler
Martin Fowler
博客园 - 聂微东
The GitHub Blog
The GitHub Blog
V
Visual Studio Blog
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
Engineering at Meta
Engineering at Meta
GbyAI
GbyAI

DEV Community

Authentication Security Deep Dive: From Brute Force to Salted Hashing (With Java Examples) Why AI Systems Don’t Fail — They Drift Spilling beans for how i learn for exam😁"Reinforcement Learning Cheat Sheet" I Replaced Chrome with Safari for AI Browser Automation. Here's What Broke (and What Finally Worked) How Python Borrows Other People's Work The $40 Architecture: Processing 1 Billion API Requests with 99.99% Uptime Vibe Coding: A Workflow Guide (From Zero to SaaS) Most webhook security guides protect the wrong side. The scary part is delivery. Headless CMS for TanStack Start: Build a Blog with Cosmic EU Age Verification App "Hacked in 2 Minutes" — What Actually Happened Comfy Cloud’s delete function does not actually remove files Running AI Models on GPU Cloud Servers: A Beginner Guide Event-driven media intelligence with AWS Step Functions and Bedrock I scored 500 AI prompts across 8 quality dimensions — here's what broke How to Call Google Gemini API from Next.js (Free Tier, No Backend Needed) The Portal Protocol: Reclaiming Human Connection in the Age of AI How to Fix Your Team's Scattered Knowledge Problem With a Self-Hosted Forum Intro to tc Cloud Functors: A Graph-First Mental Model for the Modern Cloud Designing Multi-Tenant Backends With Both Ownership and Team Access I Built a Neumorphic CSS Library with 77+ Components — Here's What I Learned PostgreSQL Performance Optimization: Why Connection Pooling Is Critical at Scale Cómo construí un SaaS multi-rubro para gestionar expensas en Argentina con FastAPI + Vue 3 🚀 I Built an Ethical Hacking Scanner Tool – Open Source Project I Replaced /usage and /context in Claude Code With a Single Statusline A Pythonic Way to Handle Emails (IMAP/SMTP) with Auto-Discovery and AI-Ready Design I Collected 8.9 Million Polymarket Price Points — Here's What I Found About How Markets Really Move EcoTrack AI — Carbon Footprint Tracker & Dashboard Everyone's Using AI. No One Agrees How. 5 self-hosted ebook managers worth trying in 2026 Building Your First AI Agent with LangChain: From Chatbot to Autonomous Assistant Common SOC 2 Failures (Real World) Stop Vibe-Checking Your AI App: A Practical Guide to Evals How to Use SonarQube and SonarScanner Locally to Level Up Your Code Quality Your Next To-Do App Is Dead — I Replaced Mine with an OpenClaw AI Sign a Nostr event in 60 lines of Python using coincurve — no nostr-sdk, no nbxplorer, no rust toolchain ITGC Audit Explained Like You’re in Big 4 Patch Tuesday abril 2026: Microsoft parcha 163 vulnerabilidades y un zero-day en SharePoint Stop scraping everything: a better way to track competitor price changes Listing on MCPize + the Official MCP Registry while routing payments OUTSIDE the marketplace — how I kept 100% of my x402 revenue Building an AI-Powered Risk Intelligence System Using Serverless Architecture Why We Ripped Function Overloading Out of Our AI Toolchain Testing AI-Generated Code: How to Actually Know If It Works SaaS Churn Is Killing Your Business. Here Is What to Do About It (Without a Support Team) The Speed of AI Is No Longer Linear - And Self-Improving Models Are Why How to Implement RBAC for MCP Tools: A Practical Guide for Engineering Teams From Standard Quote to Persuasive Proposal: AI Automation for Arborists I built a CLI that scaffolds complete multi-tenant SaaS apps Axios CVE-2025–62718: The Silent SSRF Bug That Could Be Hiding in Your Node.js App Right Now The dashboard that ended our friendship Data Pipelines Explained Simply (and How to Build Them with Python)
지속 메모리는 AI 에이전트의 빠진 조각입니다
pulkitgovran · 2026-05-24 · via DEV Community

이것은 Hermes Agent Challenge에 대한 제출물입니다: Hermes Agent에 대해 작성하세요

모든 AI 데모는 인상적입니다. 질문을 하면 지혜로운 답변을 받고, 계속해서 질문하면 여전히 좋습니다. 탭을 닫고 내일 다시 돌아오면, 그것은 당신이 누구인지 아무것도 모릅니다.

그것은 에이전트가 아닙니다. 그것은 긴 시스템 프롬프트를 가진 챗봇입니다.

도구와 협력자의 차이는 기억이다.


상태 없음이 약속을 죽인 이유

우리는 기본적으로 기억을 잃는 "대리인"을 만들고 있다.

모든 주요 프레임워크 - LangChain, LlamaIndex, 심지어 OpenAI의 Assistants API - 모두 대화 이력을 명시적으로 전달해야 합니다 또는 당신이 구축하고 유지 관리하는 벡터 스토어에서 관리합니다.

결과는 개발자들이 실제 제품을 만드는 것보다 메모리 엔지니어링에 더 많은 시간을 소비한다. 그리고 메모리는 여전히 얕다. 그것은 검색이다. 이해하지 못한다.

인간적인 협력자는 노트북에서 사실만을 검색하지 않는다. 그들은 경험을 살아왔다 맥락을. 그들은 지난 주 스프린트 회의에서 Redis에 대한 논쟁을 기억한다. 그들은 왜 GraphQL 이전을 시도하고 포기했는지 알고 있다. 그들은 지금 당신이 있는 지점으로 이어진 모든 것에 대한 제도적 지식을 가지고 있다.

그것은 문서를 청크로 나누고 코사인 유사도를 계산하여 재현할 수 있는 것이 아니다.


검색의 함정

RAG (검색 증강 생성)은 기억 문제에 대한 기본 답변이 되었습니다. 특정 유형의 질문에는 잘 작동합니다: "문서 X는 주제 Y에 대해 무엇을 말하나요?"

하지만 다른 유형의 질문에는 작동하지 않습니다: "무엇이 변화했고, 왜 변화했으며, 그 패턴은 우리가 향후 어디로 가는지에 대해 무엇을 말해줍니까?"

차이점은 시간적 추론입니다. RAG는 LLM을 탑재한 검색 엔진입니다. 관련 텍스트를 찾습니다. 이해하지는 못합니다.시퀀스,인과관계, 혹은역전.

3월에 PostgreSQL에서 MongoDB로 이전한 팀이 9월에 다시 PostgreSQL로 돌아왔을 때, RAG 시스템은 데이터베이스에 대한 두 개의 문서를 본다. 지속적인 세션 메모리를 가진 Hermes는 결정이 내려졌다가 다시 재고되고 뒤집혔다는 것을 이해하며, 그 패턴이 어떤 의미인지 알려줄 수 있다.


지속적인 세션 메모리 변경사항

Hermes Agent는 속이는 듯 간단한 것을 소개했습니다: 요청 사이에 지속되는 세션 ID와 이를 통해 이해를 축적합니다.

X-Hermes-Session-Id: my-repo-brain

전체 화면 모드로 전환 전체 화면 모드 종료

세 달 동안 그 세션을 통해 백 개의 이벤트를 전송하면 Hermes는 단순히 저장하는 것을 넘어 시스템을 모델링합니다. 새로운 정보는 이전 모든 정보의 맥락 속에 도착합니다.

10번 커밋은 고립되어 처리되지 않습니다. 헤르메스는 6주 전에 한 결정을 뒤집었다는 것을 알고 있습니다. 변경 사항을 도입한 PR이 논쟁적이었음을 알고 있습니다. 저자가 이전에 두 번 유사한 롤백을 했다는 것을 알고 있습니다.

그것은 질적으로 다른 종류의 지식입니다.


더 큰 함의

우리는 AI를 질의 인터페이스로부터 AI를 장기 참여자로 바꾸는 시대의 시작에 있습니다.

"AI에게 질문을 하세요."가 아닙니다.
"AI는 지켜보고 있었고, 그가 봤던 것을 알려줄 것입니다."입니다.

이것은 구축 가능한 것을 바꾸어 줍니다.

  • 자신의 아키텍처 역사를 설명하는 코드베이스
  • 고객 지원 대리가 어떤 이전 상호작용도 알아서 기억하는
  • 지금이 아니라 세 달 전에 "정상"이 어떤 모습이었는지 알고 있는 모니터링 시스템
  • 모든 결정을 추적하고 모순을 자동으로 드러내는 프로젝트 관리자

이러한 것들은 무상태 LLM 호출로는 어떤 프롬프트 엔지니어링이 얼마나 정교해도 가능하지 않습니다. 그들은 매번 API 호출마다 초기화되는 것이 아니라, 시간이 지날수록 더 똑똑해지는 누적된 에이전트가 필요합니다.


자율 레이어

이 그림을 완성하는 부분은 일정표입니다. Hermes의 내장 cron 작업 등록 기능은 지속적인 에이전트가 능동적일 수 있게 합니다. 에이전트.

await hermes.create_job(
    name="weekly-risk-report",
    schedule="0 9 * * 1",
    prompt="Review what you've learned this week. Identify the three biggest risks.",
)

전체 화면 모드 입력 전체 화면 모드 종료

이것은 cron 작업이 무상태 API를 호출하는 것이 아닙니다. 동일한 에이전트, 동일한 누적 메모리로 스케줄에 스스로를 실행합니다. 메모리와 자율성은 동일한 시스템에 있습니다.

그것은 정교한 자동 완성보다는 진정한 참여자처럼 느껴지는 것을 만드는 아키텍처입니다.


열린 것은 다른 일부

Nous Research는 헬무스를 열었습니다. 일반적인 오픈 소스 논쟁 이상의 중요한 점입니다.

AI 에이전트용 영구 메모리는 민감합니다. 에이전트가 당신의 코드베이스, 당신의 팀, 당신의 고객에 대해 모든 것을 기억한다면 — 당신은 그 메모리가 어디에 있는지, 누가 그것을 제어하는지, 그리고 당신이 구독료를 지불하지 않을 때 그것이 무엇이 일어나는지 정확히 알고 싶습니다.

열려있음 + 영구적 + 지역적으로 실행 가능한 조합이 이것이 심각하게 구축할 수 있도록 만드는 것입니다, 실험적인 것만이 아닙니다. 당신은 메모리를 소유하고 있습니다. 그것은 실제로 폐쇄 소스 클라우드 서비스가 보장할 수 있는 속성이 아닙니다.


우리가 메워지고 있는 간극

어떤 조직에서도 가장 가치 있는 지식은 문서에 없습니다. 그것은 사안을 왜 그렇게 되었는지 알 수 있는 충분히 오랫동안 있었던 사람들의 머릿속에 있습니다 — 당신이 인증 시스템을 리팩토링하려고 했던 세 번을 기억하는 경험 많은 엔지니어, 같은 버그를 다른 이름으로 불러 불평했던 계정을 알고 있는 고객 성공 매니저.

그 지식은 존재할 때 소중하고, 문을 나설 때 재앙적이다.

지속적인 기억을 가진 AI 에이전트는 실제로 그런 종류의 지식을 가지고, 검색 가능, 확장 가능, 영구적이게 만들 수 있는 첫 번째 기술이다.

그것은 기능이 아니다. 그것은 전체 게임이다.