惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

H
Help Net Security
T
ThreatConnect
SecWiki News
SecWiki News
F
Future of Privacy Forum
AWS News Blog
AWS News Blog
C
Cisco Blogs
A
Arctic Wolf
Vercel News
Vercel News
The GitHub Blog
The GitHub Blog
Scott Helme
Scott Helme
V
V2EX
博客园 - 叶小钗
阮一峰的网络日志
阮一峰的网络日志
K
Kaspersky official blog
G
Google Developers Blog
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
P
Privacy International News Feed
C
Cyber Attacks, Cyber Crime and Cyber Security
N
News | PayPal Newsroom
Schneier on Security
Schneier on Security
NISL@THU
NISL@THU
Microsoft Azure Blog
Microsoft Azure Blog
量子位
The Hacker News
The Hacker News
Stack Overflow Blog
Stack Overflow Blog
Security Latest
Security Latest
M
Microsoft Research Blog - Microsoft Research
Google Online Security Blog
Google Online Security Blog
博客园_首页
C
CXSECURITY Database RSS Feed - CXSecurity.com
I
InfoQ
Google DeepMind News
Google DeepMind News
Y
Y Combinator Blog
The Cloudflare Blog
Microsoft Security Blog
Microsoft Security Blog
Martin Fowler
Martin Fowler
Cisco Talos Blog
Cisco Talos Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
T
Troy Hunt's Blog
F
Fox-IT International blog
S
Security @ Cisco Blogs
博客园 - 司徒正美
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
C
Comments on: Blog
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
L
LINUX DO - 最新话题
GbyAI
GbyAI
Project Zero
Project Zero
腾讯CDC
T
Tailwind CSS Blog

ZDNet Korea

삼성 폴더블폰, '갤Z폴드 울트라'로 명칭 바뀌나 페라리, 첫 순수 전기차 '루체' 공개…최고출력 1050마력 발휘 美 경제대통령 워시 시대 개막…세계는 금리 공포에 에쓰오일, 데이터센터용 액침냉각유 실증 추진 두산에너빌리티, 남부발전과 가스터빈 장기 서비스 계약…4800억 규모 포티투닷, '우아한형제' 출신 자율주행 전문가 영입 에이블런, 공직자 AI 전문 역량 키워준다 "갤럭시Z폴드8 와이드, 그립감 놀랍네"…화면 보호필름 봤더니 휘슬러코리아, '쿠킹챌린지' 연다...결식아동 지원 기부금도 적립 삼성디스플레이, 페라리 전기 스포츠카에 OLED 4종 단독 공급 말 못하는 유아 통증, AI로 단계별 판독 세계 첫 성공 정용진, 오늘 스타벅스 ‘탱크데이 논란’ 직접 사과한다 GIST-건국대-화학연, 저비용·고효율 차세대 수소 생산 전극 개발 [AI 리더스] 로봇계 TSMC 노리는 컨피그 "한국 제조 생태계가 우리 무기" "대통령부터 국민까지 사이버공간 보는 시각 바뀌어야" LG전자, '집덕후 놀이터' 라이프집 상표 추가 출원...'향기 굿즈' 지정상품 포함 [부음]최병관(대전과학산업진흥원 과학산업전략본부장)씨 모친상 삼성전자 제3노조 "잠정합의안 찬반투표 중지 가처분 신청" 제미나이 과금 논란 속 구글 "AI 보안 전략 처음부터 짜야" 오픈AI 넘어서나…앤트로픽, 이르면 다음주 신규 투자 마무리 '해킹 올림픽' 예선 종료…한국 주축 팀 상위권 기염 "목사님 대신 AI 설교 들어요"…미국 기독교인 48% AI 신뢰 인포매티카, 스노우플레이크 AI 거버넌스 강화 핑거, 두베와 원화 스테이블코인 사업 MOU 체결 AI 베팅 통했다…줌, 앤트로픽 투자로 10억 달러 차익 미국이 쏘아 올린 '패시브 이자'의 종말 X, 도둑 콘텐츠 계정 손본다…"원작자 아닌 재업로드 계정 수익 대폭 삭감" 30살 맞은 포켓몬…코엑스 가득 채운 '포켓몬 스포츠데이 2026' 성황 [인사] 보건복지부 통증 진료 분야도 AI…통증학회 학술대회에서 프로그램 강화 화웨이 걷어낸 영국, 광통신 장비 대체제 못 찾아 박인환 우본 본부자으 선거우편물 소통현장 점검 이재현 회장, PGA 더CJ컵 찾아 현장 경영 앤트로픽 "미토스, 한 달 만에 취약점 1만건 찾아" "AI를 데이터 가까이로"…델이 그린 프라이빗 인프라 미래 탄소포집 CO₂서 항공유·플라스틱 원료 "간단히 분리" 탄산수 한물갔다?…무탄산 음료 주목 업비트, ‘업클래스 주니어배 퀴즈 대항전’ 개최 LGU+, 월드컵 중계 위해 해저케이블 6개 회선 운영 LG전자 "올레드 TV, 글로벌 14개국 소비자매체 평가서 1위" 홈플러스, 새 주인 찾는다…본사·대형마트 M&A 착수 스타트업 넘어 군·학계까지…민간 주도 '국방 AX 컨트롤타워' 출격 넥슨, 서브컬처 영향력 확대…'아주르 프로밀리아' CBT 성료 중국 딥시크, 플래그십 모델 75% 할인 영구화 복구 완료라더니 전부 '가짜'...제미나이, 코드 삭제 후 허위 보고서 작성 日 닛케이 225, 사상 첫 65000 돌파…호르무즈 해협 재개방 협상 중국, AI 단말 등급 매긴다...1~4단계 국가표준 마련 중국, 양자컴퓨팅 세계 신기록...'구장 4호' 개발 한 달만에 5호점...中 티 브랜드 '차지' 시청점 줄서보니 열뿜는 데이터센터...인근 주택가 기온 최대 2.2℃ 치솟아 샤넬 오너 일가, 10년간 배당 32조원 챙겼다 MS, 빙 이미지 검색에 AI 강화…"시각 자료 탐색 지원" KAIST AI대학 218명 "글로벌 AI허브 유치는 UN과 AI 방향 만들어 갈 전환점" 엑스박스 인사이더 "엘더스크롤6, 출시 아직도 멀었다” "축산·폐기물 메탄 100kg이상 누출시 AI로 즉각 탐지" [동정]김아영 UNIST 특임교수, 'AI시대 상상력…' 무대 마련 스타벅스 불매 운동, 과학기술계로 확산 LG화학, OLED 중수소 특허 유효 최종확인...대법원, SFC 상고 기각 배민, 전국소년체전 선수들에 푸드트럭 도시락 지원 삼성 TV 35만대 더 팔 때, TCL은 78만대 더 팔았다 칸 사로잡은 나홍진 '호프'…현대차 스텔라, 몰입감 더했다 소유권 명확할수록 규제…블록체인 게임의 딜레마 [ZD브리핑] 삼성전자 노사 잠정합의안 운명은…재계 파장 촉각 AI가 환자 정신과 진료…"아직은 견습생 수준' NTT도코모, 유료로 제공하던 ‘5G SA’ 무료 전환 SLL 드라마 ‘모자무싸’ OST 음원 24일 정오 공개 CJ그룹, 직원 정보 내부 유출자 특정 오기웅 중기중앙회 부회장 "중기, 예산·인력 부족 보안위협 더 취약" 李대통령 "일베, 조롱·혐오 방치...사이트 폐쇄 검토 필요" 백악관 총격범 현장서 사살…과거에도 수차례 접근 시도 애니메이션 ‘원피스’ 캐릭터 각각 품은 스마트워치 [동정]IAEA와 핵비확산 신뢰성 위한 17개국 교육 CATL, 왜 딥시크에 베팅하나…AI 데이터센터 전력 수요 겨냥 이해민 의원, 다크패턴 이용자 피해 차단 법안 발의 삼성전자로지텍, 상업용 시스템에어컨 세척 20% 할인 '초자연 작전팀', 공포와 폭소 오가는 파티 협동 생존극 LG, 8개 언어권 중학생 합숙캠프 23~24일 개최 자율주행 기술 갈아탄 中 샤오펑 "더 이상 라이다 필요없어" 넷플릭스, ‘보는 다큐’ 넘어 ‘체험하는 다큐’로 ‘힙불교’ 열풍 올라탄 OTT...부처님오신날 볼 만한 콘텐츠는 '이미 온' 자율주행 시대...韓 모빌리티 B-학점 기업 전화도 클라우드 시대…대한항공, 줌 폰 도입 확대 절세 혜택에 국장 복귀…100% 공제 막차 수요 몰릴까 마이크론, 美 버지니아 공장서 1ɑ DDR4 메모리 생산 개시 "물길 보고도 진입했다"…웨이모 로보택시 또 침수 사고 샤오미, 테슬라 재도전…YU7 표준형 부활·GT 출시 야마자키 토모 나이언틱 대표 "韓 이용자, '피크민 블룸' 즐기는 방식 다양해" 챗GPT·제미나이·그록 품은 '델 AI 팩토리'…"AI는 온프레미스가 대세" 코로나19로 잃은 후각·미각, '특수 껌' 씹고 되찾아 우버, '딜리버리히어로' 인수 제안…도어대시와 해외 배달시장 경쟁 [AI는 지금] 中, AI 연인 규제 칼 빼들었다…"미성년자 가상 연애 금지" "스타벅스에 있으면 산다"…미 스벅, 입점 스낵 브랜드 판매 급증 AI 시대 '리타이머' 뜬다…신호 심폐소생술 핵심 부품 RAG는 정말 '환각'을 잡았는가...생성형 AI 운영, 지표 없는 품질 관리의 한계 1분기 삼성 엑시노스 출하량 11% 상승...점유율 5위 고낙준 개보위 국장 "중기 대상 사전진단과 기술지원 확대" 플라텍, 램리서치 특허 무효분쟁 항소 [현장] 윤오준 전 국정원 3차장 "이제 중기도 사이버보안 챙겨야" [ZD e게임] 넷마블 '솔: 인챈트', 게임 자체를 휘두르는 '신권' 주목 라인게임즈, 신작 4종 플레이엑스포에 선보여...자체 개발작에 인디 퍼블리싱까지
KAIST-포스텍-소니AI, 현장감에 가장 가까운 소리 생성 AI기술 개발
박희범 기자 · 2026-05-26 · via ZDNet Korea

밀폐된 공간과 개방된 공간에서 각각 폭탄이 터지면, 서로 소리도 다르다. 같은 상황을 AI가 이해하고, 거의 현장감과 유사한 소리를 만들어내는 기술이 개발됐다.

KAIST는 오태현 전산학부 교수 연구팀이 POSTECH 및 소니 AI 연구팀과 공동으로 영상 속 물리적 상황을 이해한뒤 보다 현실감 있는 소리를 생성하는 인공지능(AI) 기술 ‘파바스(PAVAS)를 개발했다고 26일 밝혔다.

기존 영상→음향 생성 모델(위)과 PAVAS가 생성한 음향의 스펙트로그램 비교.(그림=KAIST)

기술 핵심은 영상 속 물체 질량과 속도 등 눈에 보이지 않는 물리 정보를 AI가 스스로 추론하도록 설계했다는 점이다. 일반적인 영상에는 물체의 정확한 무게나 속도가 숫자로 제시되지 않지만, 연구팀은 AI가 주변 환경과 움직임의 맥락을 분석해 이를 추정하고, 그 결과를 소리 생성 과정에 반영하도록 했다.

단순히 ‘무엇이 보이는지’를 인식하는 수준을 넘어, ‘왜 이런 소리가 나야 하는지’에 대한 물리적 원인까지 AI가 이해하도록 만들었다.

기술 검증 결과, 물체 간 충돌이나 타격 등 물리적 상호작용이 발생하는 장면에서 실제 환경과 매우 유사한 소리를 생성했다. 특히 물체의 질량과 속도가 달라질 때 소리의 크기와 음색도 자연스럽게 변화하는 등 보다 현실감 있는 음향을 구현했다.

최근에는 영상과 오디오를 동시에 생성하는 생성형 AI 기술이 빠르게 발전하고 있다. 대표적으로 구글 ‘비오(Veo) 3’, 바이트댄스 ‘시댄스(Seedance) 2.0’ 등이 있다. 그러나 실제 영화·광고·게임 제작 현장에서는 새로운 영상을 생성하는 것보다 기존 영상에 장면에 맞는 효과음을 추가하거나 음향을 보완하는 후반 작업 수요가 훨씬 크다.

연구팀은 이번 기술이 ‘물리적으로 일관된 생성 AI(Physical AI)’ 분야의 새로운 가능성을 제시했다고 설명했다. 물리적으로 일관된 생성 AI는 단순히 그럴듯한 결과를 만드는 수준을 넘어, 현실 세계의 물리 법칙과 인과관계까지 이해하는 AI를 의미한다.

향후 이 기술은 콘텐츠 음향 제작 자동화는 물론, 증강현실(AR)·가상현실(VR) 콘텐츠, 메타버스, 로보틱스 시뮬레이션 등 다양한 분야에서 더욱 몰입감 있는 사용자 경험을 제공할 수 있을 것으로 기대된다.

연구진. 왼쪽부터 오현빈 연구원(1저자, POSTECH 통합과정), 타키다 유타 및 우에사카 토시미츠 연구원(소니 AI), 오태현 교수(KAIST 전산학부), 미츠후지 유키 부사장(소니 AI/뉴욕대 방문연구교수 겸)

오태현 교수는 “기존 생성 AI가 데이터와 모델 규모를 키우는 방식으로 발전해 왔다면, 이번 연구는 AI가 물리량과 인과관계를 직접 이해하도록 설계했다는 점에서 의미가 있다”며 “향후 텍스트·영상·음성 등 다양한 정보를 동시에 이해하고 처리하는 차세대 멀티모달 AI의 핵심 기반 기술로 확장될 수 있을 것”이라고 말했다.

관련기사

연구는 POSTECH 오현빈 통합과정 학생이 제1저자로 참여했다.  KAIST 오태현 교수와 소니 AI 타키다 유타(Yuta Takida), 토시미츠 우에사카(Toshimitsu Uesaka), 미츠후지 유키(Yuki Mitsufuji) 연구원이 공동 저자로 참여했다.

연구결과는 컴퓨터 비전(영상 기반 인공지능 기술) 분야 국제학술대회인 ‘CVPR 2026(Computer Vision and Pattern Recognition 2026)’에서 전체 논문 중 상위 1% 이내만 선정되는 오랄(Oral) 발표 논문으로 채택됐다.