





















💡 站外导读:在AI快速渗透各行业的今天,从单张2D图像快速生成高质量3D场景的需求日益迫切,无论是VR/AR内容创作、影视特效,还是自动驾驶的环境感知,都面临传统3D建模速度慢、成本高的瓶颈。苹果开源的SHARP模型直击这一痛点,它能在不到1秒内将单张照片转换为逼真的3D场景,合成速度提升三个数量级,同时图像质量显著优于现有技术,为行业带来了革命性的效率突破。
SHARP 是苹果开源的 AI 模型,能在不到 1 秒内将单张 2D 照片转换为逼真的 3D 场景。模型通过 3D 高斯表示技术,用神经网络单次前馈传递,快速预测出场景的 3D 结构和细节。与传统方法相比,SHARP 将合成速度提升三个数量级,同时在多个基准测试中表现出色,将 LPIPS 降低 25% – 34%,DISTS 降低 21% – 43%,生成的 3D 视图在细节和结构上更接近真实世界。

快速视图合成:在不到 1 秒的时间内,通过单次神经网络前馈传递完成 3D 场景的生成。
高分辨率渲染:支持实时渲染高分辨率的 3D 视图,细节丰富且结构逼真。
绝对尺度支持:模型生成的 3D 场景具有绝对尺度,支持真实的相机运动模拟。
零样本泛化:在多个数据集上表现出色,能泛化到未见过的场景,具有良好的鲁棒性。
高效性与高质量:相比传统方法,合成速度提升三个数量级,同时在图像质量上显著优于现有技术。
3D 高斯表示:将场景中的物体和结构表示为带有颜色、位置和形状信息的高斯分布(高斯球)。这种表示方式能高效地捕捉场景的几何和外观信息,同时支持高效的渲染。
神经网络回归:使用深度神经网络从单张 2D 照片中回归出场景的 3D 高斯表示的参数。网络通过海量的合成数据和真实世界数据进行训练,学习到通用的深度和几何规律。
快速建模与渲染:在处理新照片时,模型通过单次前馈传递快速预测出数百万个高斯分布的位置、大小和外观。生成的 3D 场景支持实时渲染,能够以超过 100 帧每秒的速度在标准 GPU 上运行。
苹果开源SHARP模型,标志着实时、高质量3D内容生成进入了“秒级”时代。这不仅仅是一个速度的提升,更是AI赋能内容创作与空间计算的范式转变。其采用的3D高斯表示技术,通过神经网络一次性预测数百万高斯分布参数,实现了效率与质量的极致平衡,这背后是苹果在AI基础研究上的深厚积累。结合苹果在Vision Pro等硬件生态的布局,SHARP这类技术将成为构建沉浸式数字世界的“基石引擎”,极大降低3D内容生产门槛,加速元宇宙、数字孪生等愿景落地。未来,AI驱动的3D内容生成将与大语言模型、多模态技术深度融合,形成更智能、更自动化的创作工具链,重塑从娱乐到工业的多个产业。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。