인공지능(AI)이 스스로 판단하고 행동하는 '에이전틱 AI' 시대가 본격화하면서 기존 거대언어모델(LLM) 중심의 안전 평가 체계로는 위험을 충분히 통제할 수 없다는 전문가 경고가 나왔다. 실행 환경에 따라 행동이 달라지는 에이전트 특성상 사전 정적 평가만으로는 한계가 있으며, 실행 중 동적 평가와 국제 표준 기반 검증 체계 구축이 병행돼야 한다는 지적이다.
김명주 인공지능안전연구소(AISI) 소장은 26일 서울 서초구 드림플러스 강남에서 열린 '2026 AI 세이프티 컴패스(2026 ASC)'에서 "에이전트는 목표를 세우고 계획하고 도구를 쓰고 행동하기에 전혀 다른 위험 완화 원칙이 필요하고 개발 단계 테스트만으로는 충분하지 않다"고 밝혔다.
김 소장은 다음 달 공식 발표를 앞둔 한-싱가포르 공동 에이전틱 위험 관리 원칙 초안을 이 자리에서 선공개했다. AISI는 지난해 12월 싱가포르 AI안전연구소와 업무협약(MOU)을 체결한 뒤 결제·글쓰기 등 도메인에서 에이전트 안전성 공동 평가를 진행해왔다. 초기 6개 도메인에서 현재 12개(한국 6개, 싱가포르 6개)로 확장됐으며 중간 성과를 국제 AI 학술대회 뉴립스(NeurIPS)에 제출할 계획이다.
해당 초안은 각국 기관의 에이전트 관련 가이드라인을 통합 정리한 메타 원칙서 성격으로, 범용인공지능(AGI)·일반 AI·에이전트를 구분해 설계·개발, 테스팅·배포, 운영·모니터링 등 3단계에 걸친 10가지 위험 완화 원칙을 담고 있다. 에이전트에 대한 최소 권한 부여, 신원 및 파생 관계 추적, 단계적 검증 배포, 공급망 위험 대응 및 복원력 확보, 실행 중 문맥 변화에 대한 동적 보증, 킬 스위치, 중요 의사결정 시 인간 개입 시점 확보 등이 핵심이다.
김 소장은 "이 원칙들은 모두 초기 단계이며 계속 바뀔 것"이라면서도 "결국 에이전트 환경하에서 표준이 자리를 잡고 그 표준을 중심으로 검증 체계가 구축되는 방향으로 갈 것"이라고 말했다.
AISI는 이와 별도로 오픈소스 에이전트 환경 '오픈클로'와 에이전트 전용 사회관계망서비스(SNS) '몰트북'을 직접 구축해 글로벌 AI 모델 3종, 중국 모델 1종, 한국 모델 1종 등 5종에 대한 실제 공격 실험도 진행했다. 오픈클로 실험에서는 악성 명령 수행 여부, 민감정보 외부 유출, 도구 오남용 등 3개 영역을 측정한 결과 모델별 방어율이 최고 93.9%에서 최저 53.3%까지 편차가 컸다.
몰트북 실험에서는 에이전트 간 집단행동은 확인되지 않았으나 민감정보 유출 시도와 연산자원 낭비 유도 행위는 존재했다. 김 소장은 "상상 속 위험이 아니라 실제로 존재하는지 직접 돌려보고 측정해야 한다는 게 전 세계 AI 안전연구소들의 공통된 입장"이라고 설명했다.
앤트로픽 최신 고성능 모델 '미토스' 활용을 중심으로 한 국제 보안 공조 체계 '프로젝트 글래스윙' 참여 전망에 대해서는 조심스러운 입장을 내비쳤다. 미국 정부가 타 국가·기관의 참여를 통제하는 만큼 당장은 우리 정부 차원의 참여가 쉽지 않을 것이라는 전망에서다.
관련기사
- IAAE, 안전한 AI 기술 방향 제시한다2026.05.19
- 중국 AI에이전트 규모 1조7220억...최근 5년간 5.5배 증가2026.05.18
- [현장] "AI 보안이 혁신이자 안보"…AI안전연구소, 미국 랜드·마이터와 전략 공조2026.02.25
- MS "올해는 AI 에이전트 해…보안 가시성 확보가 기업 경쟁력 가를 것"2026.02.11
김 소장은 "하위 버전 AI 모델을 통해서라도 최대한 신속하게 취약점을 먼저 찾아내 패치하는 것이 지금으로서는 최선"이라고 말했다. 이어 "패치 자체가 역으로 취약점 분석에 악용될 수 있는 만큼 공개 시점과 방식에 대한 고민이 깊다"고 덧붙였다.
국제인공지능윤리협회(IAAE)가 주최한 이날 행사는 올해 3회차를 맞았으며, 과학기술정보통신부 산하 한국전자통신연구원(ETRI) 부설 조직 AISI와 테크 스타트업 전문 홍보(PR) 에이전시 팀쿠키가 후원했다. 전창배 국제AI윤리협회 이사장은 개회사에서 "자율성을 가진 AI가 오류나 오판을 일으키거나 보안 문제에 노출될 경우 그 피해 규모와 파급력은 과거와 비교할 수 없을 만큼 커질 수 있다"고 말했다.





















