구글은 완벽한 딥페이크 엔진을 만들었다. 숨겨진 픽셀이 혼란을 막을 수 있을까?

피드를 스크롤하며 움직이는 차 위로 뒤로 점프하는 자신의 물리적으로 정확하게 렌더링된 영상을 보는 상상을 해보세요.

뒤로 점프하는 법을 몰랍니다. 그 차 근처에 가본 적도 없습니다. 하지만 조명은 완벽합니다. 바람을 받아치는 자신의 재킷의 유체 역학은 완전히 사실처럼 보입니다. 자신의 목소리는 정확히 자신과 같습니다.

이제 이것은 수백만 달러 규모의 할리우드 시각효과 프로젝트가 아닙니다. 이것은 오롯이 구글의 새로운 제미니 오미 모델의 존경을 받는 인터넷의 또 다른 화요일일 뿐입니다.

구글 I/O 2026에서 공개된 오미는 생성 엔진의 괴물입니다. 이를 통해 사용자는 어떤 비디오에도 스스로를 집어 넣고, 초현실적인 AI 아바타를 만들 수 있으며, 단일 텍스트 프롬프트로 엄청나게 정확한 장면을 생성할 수 있습니다.

그러면, Google I/O 2026에서 발표된 모든 것에 대한 빠른 분석을 원하시면 이곳에서 짧은 키노트 요약 영상을 시청하실 수 있습니다:

연결 없는 현실 왜곡 엔진을 대중에게 제공하는 것은 거대한 사회 변화를 초래하는 후유증과 함께 옵니다. 올해로 들어 딥페이크 사건이 900% 폭발적으로 증가했습니다.

Omni가 스마트폰만 있다면 누구나 엘리트 수준의 비디오 조작을 할 수 있도록 만들면서, 우리는 온라인 미디어의 대부분이 완전히 합성될 수 있는 미래를 직면하고 있습니다.

Google은 연기 조각을 나누고 있다는 것을 알고 있습니다. 따라서 디지털 세계가 타버리지 않도록, 그들은 소화기들을 풀고 있습니다.

이 합성적인 피어드링크에 대한 주요 방어 메커니즘은 두 가지 주요 기둥에 의존합니다: C2PA 자격 증명과 DeepMind SynthID 워터마크.

모순: 신과 경찰을 동시에 하는 것

이 기술적 발전의 핵심에는 깊은 이로니가 존재합니다. 구글은 동시에 최고의 조작자이자 최고의 인증 기관으로 행동하고 있습니다.

그들은 사실과 허구 사이의 경계를 흐리는 도구를 만들고 있습니다. 동시에, 그들은 절망적으로 우리에게 실제로 무엇이 진실인지 알려주는 인프라를 구축하려고 노력하고 있습니다.

Omni는 네이티브 멀티모달 시스템입니다. 오래된 모델들은 텍스트 엔진에서 이미지 엔진으로 어지럽게 작업을 전달하고 그 다음에 비디오 생성기로 전달하는 것과 달리, Omni는 텍스트, 오디오, 이미지, 비디오를 동시에 하나의 통일된 뇌에서 처리합니다.

비디오를 업로드하고 대화처럼 편집할 수 있습니다. 조명을 어둡게 하거나 카메라 각도를 변경하거나 가시적인 물체를 보이지 않게 할 수 있습니다. 결과는 공포스럽게 일관성이 있습니다.

이것이 필연적으로 폭발시킬 혼란을 대비하여, 구글은 깊은 가짜를 검출을 직접적으로 그의 가장 많이 사용되는 플랫폼에 통합하고 있습니다.

곧 Chrome에서 이미지를 우클릭하거나 Circle to Search를 사용하여 휴대폰에서 단순히 한 가지 질문만 할 수 있게 될 것입니다.

"이게 AI로 만들었나요?"

하지만 시스템이 실제로 어떻게 알 수 있는 걸까요.

방어: 메타데이터 대 비트맵 심층 신호

구글의 검증 전략은 단일 방식만 의존하는 것이 실패의 조건이기 때문에 두 단계의 접근 방식을 의존합니다.

레이어 1: C2PA 콘텐츠 자격 증명

C2PA를 디지털 미디어의 암호학적 영양표로 생각해보세요.

파일에 첨부된 메타데이터 조각으로, 콘텐츠가 어떻게 생성되었는지와 사용된 도구를 기록하는 검증 가능한 역사를 기록합니다. 구글은 이를 강력하게 추진하고 있으며, 크롬과 검색에 깊숙이 확장하고 있습니다.

C2PA의 문제점은 취약성입니다.

악의적 요소는 파일에서 메타데이터를 제거할 수 있습니다. 더 나아가, 많은 소셜 미디어 플랫폼은 업로드를 자동으로 압축하여, 그 중요한 영양표를 우연히 지우게 될 수 있습니다. 유효한 C2PA 매니페스트는 인간의 저작을 주장할 수 있지만, 그 이미지 자체의 의미적 진실성을 증명하지는 않습니다.

레이어 2: SynthID

여기가 실제로 중요한 일이 일어나는 곳입니다. Google DeepMind에서 개발한 SynthID는 콘텐츠 자체에 직접 삽입된 보이지 않는 디지털 수수료입니다.

이미지와 영상에서는 수수료가 픽셀 수준에서 시각 스펙트럼에 구현됩니다.

오디오에서는 신호가 파형의 깊숙한 곳에 숨겨집니다.

텍스트에서는 토큰 생성 과정을 약간 변경하여 탐지기가 인식할 수 있는 통계적 패턴을 만듭니다.

SynthID는 전쟁을 위해 만들어졌습니다. 잘라내기, 무거운 필터, 프레임 속도 변경, 손실 압축을 견뎌낼 수 있도록 설계되었습니다. 기본 미디어를 파괴하지 않는 이상 그것을 지울 수 없습니다.

사람이 제미니 오미니 비디오를 인스타그램 필터를 거쳐 워챗에서 압축하고 틱톡에 다시 업로드하면, SynthID는 구글의 탐지 도구로 스캔될 때 여전히 경보를 울리게 됩니다.

불가능한 무기 경쟁인가요?

SynthID가 처음 출시된 이후 구글은 이미 1000억 개 이상의 이미지와 영상에 워터마크를 찍었습니다.

OpenAI, Kakao, 그리고 ElevenLabs 같은 거대 기업들을 현재 업계 전체에서 이러한 가시되지 않은 신호를 표준화하기 위해 포함시키고 있습니다.

그러나 여전히 질문은 남아 있습니다: 워터마크가 실제로 인공지능으로 생성된 매체의 엄청난 양을 따라잡을 수 있을까요?

인터넷의 해커 정신은 자연스럽게 기업 추적에 반발합니다. 오픈 소스 개발자들은 이미 이러한 보이지 않는 신호를 무시하거나 제거하는 모델을 구축하려고 시도하고 있습니다.

또한, SynthID는 참여 모델로 생성된 콘텐츠만을 표시합니다. 잘못된 행위자가 로컬 머신에서 위그식 비디오 생성기를 가동하더라도 구글 워터마크를 가지지 않습니다.

우리는 두 계층의 인터넷으로 빠르게 나아가고 있습니다.

한쪽에는 C2PA 센서 데이터와 SynthID 검사를 통해 검증된 현실이 있을 것이고, 다른 한쪽에는 검증되지 않은 매우 설득력 있는 합성 콘텐츠의 거대한 바다가 있을 것이다.

구글은 우리에게 순간적으로 현실을 완전히 바꿀 수 있는 도구를 주고 있다. SynthID는 뛰어난 공학적 발명품이지만, 진정한 인터넷을 단독으로 구출할 것을 기대하는 것은 너무 많은 요구일 수 있다.

이 기술은 딥페이크를 식별할 수 있지만, 결국 우리가 시청하는 영상이 실제로 발생했는지에 대해 신경 써야 한다는 것은 우리에게 달려 있습니다.

추천 피드

DEV Community