计算机视觉顶会论文:+ 9

时间: 2025-10-29 03:17:15 |   作者: 照明非球面


  • 产品介绍

  本年度计算机视觉领域三大顶级国际会议之一的ICCV落下帷幕,共收到约一万一千多篇有效投稿,最终录用约2,700篇,录用率约 24% ,这是生成式AI持续火热的一届盛会,展现出了几个明显的趋势:

  ● 图像与视频生成火热:这两个方向仍然是投稿量和关注度最高的方向之一,技术趋向更高效、更可用。

  ● 3D视觉走向实用 :3D视觉与重建相关的论文数量众多,最佳论文BrickGPT就是一个典型代表,显示出从虚拟模型向物理世界交互应用的深化。

  ●多模态大模型融合 :多模态学习与视觉语言模型是重要焦点,有不少视觉语言模型成果。

  本次大会上,来自混元3D和混元视觉语言模型团队的chunchao以及yongming在现场分享了混元在这两个方向上的新进展。

  其中,混元3D推出了混元世界模型1.1版本(WorldMirror)正式对外发布并开源,新增支持多视图及视频输入,单卡即可部署,秒级创造3D世界,它让3D重建从专业工具变为人人可用的技术——任何人都能在秒级内从视频或图片创造出专业级3D场景。

  Hunyuan-Vision-1.5-Thinking 具备领先的多语言多模态理解和推理能力,可以通过多轮的反思,更加深入地理解“看”到的内容,完成相应的指令任务。同时,模型在更高级的任务如视觉推理和3D空间理解,也有比较好的表现。

  论文方面,本届大会腾讯混元共有 9 篇论文被大会接收,其中主要涉及视频检索和3D领域。今天我们也带来论文的详细介绍。

  1、混合塔(Hybrid Tower):面向文本到视频检索的细粒度伪查询交互与生成

  文本到视频检索任务旨在通过具有相同语义的文本查询来检索视频。最近基于CLIP的方法探索了两种框架:双塔与单塔框架,但前者性能较差,而后者效率偏低。在这项研究中,我们探索了一种新的混合塔框架(Hybrid-Tower ),该框架可以融合双塔和单塔框架的优点,同时实现高准确率与高效率。

  我们提出了一种新的混合方法Fine-grained Pseudo-query Interaction and Generation for T2VR,这中间还包括一个新提出的伪查询生成器,旨在为每个视频生成伪查询(pseudo-query)。这使得伪查询的文本特征和视频特征能够以细粒度的方式来进行交互,在收到用户真实的文本查询之前即可进行单塔建模,保证单塔检索的高准确率。同时,与双塔框架相比,我们的方法在推理阶段不会引入额外的存储或计算开销,从而保持了双塔模型的高效率。在五个常用的文本视频检索基准上进行的广泛实验表明,我们的方法比基线%。

  此外,我们的方法与双塔模型的效率相当,同时实现了近乎最先进的性能,突出了混合塔框架的优势。

  多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力,但经过多模态训练后,这些模型却能在各类视觉相关任务中展现出强大的表现。

  这引发了我们的思考:在多模态训练过程中,LLM 基座的哪些内部结构,尤其是哪些多头注意力单元,真正承担了对视觉内容的理解?这些注意力头是不是真的存在可识别、可量化的视觉偏好或专业化功能?若能够识别出这些「视觉头」,不仅有助于揭示多模态大模型内部的「黑箱」机制,也为模型结构优化和资源分配提供了理论依据。

  在本文中,我们聚焦于注意力头的视觉偏好,提出了一种基于 OCR 任务、无需额外训练的方法,系统量化每个注意力头对视觉内容的关注程度。我们得知,只有不到 5% 的注意力头(我们叫做视觉头,Visual Head)在视觉理解任务中起到主导作用,这些头可以有明显效果地聚焦并提取图片中的关键信息,而绝大多数注意力头则主要关注文本信息或其他辅助特征。这一「视觉头稀疏性」现象表明,模型的视觉理解能力高度依赖于极少数专门化的注意力头。

  3、RomanTex:基于3D感知旋转位置嵌入的多注意力网络解耦式纹理合成方法

  为现有三维几何模型绘制纹理是3D资产生成中的关键但耗时的步骤。近年来,文本到图像(T2I)模型的发展显著推动了纹理生成技术的进步。大多数现有方法先使用图像扩散模型在二维空间生成图像,随后通过烘焙流程转换为UV纹理,然而这一些方法往往因多视角生成图像之间的不一致性而导致纹理接缝和重影等质量问题。

  相比之下,基于3D的纹理合成方法旨在解决这些视图不一致的问题,但通常忽略了二维扩散模型的先验信息,因此在实际物体应用中存在比较大挑战。为突破上述限制,我们提出了RomanTex,一种基于多视角的纹理生成框架。该框架将多注意力网络与底层3D表示结合,通过创新的3D感知旋转位置嵌入实现信息融合。

  此外,我们在多注意力模块中引入了解耦特性,提高模型在图像到纹理任务中的鲁棒性,支持语义正确的反向视图合成。与此同时,我们设计了与几何结构相关的无分类器引导机制(Classifier-Free Guidance),逐渐增强纹理与几何及图像的对齐效果。通过定量和定性评估及用户研究,实验根据结果得出RomanTex在纹理质量与一致性方面均达到了最新的技术水平。该方法为高质量3D纹理合成提供了新的有效解决方案,具有广泛的应用前景。

  物理基础渲染(PBR)已成为现代计算机图形学的基石,可以在一定程度上完成3D场景中真实的材质表现和光照交互。本文提出了MaterialMVP,一种从3D网格和图像提示中生成PBR纹理的新颖端到端模型,有效解决了多视角材质合成中的关键挑战。

  我们的方法利用参考注意力机制,从输入参考图像中提取并编码有信息量的潜在特征,实现直观且可控的纹理生成。此外,提出了一种一致性正则训练策略,以确保模型在不同视角和光照条件下的稳定性,获得光照不变且几何一致的结果。我们还设计了双通道材质生成方法,分别优化反照率和金属-粗糙度(MR)纹理,并通过多通道对齐注意力机制确保与输入图像的精确空间对齐。可学习的材质嵌入进一步捕捉了反照率和MR的不同属性。

  实验根据结果得出,该模型在多样化光照场景下生成的PBR纹理表现出高度真实感,在一致性和质量方面均优于现有方法,具备良好的可扩展性,适用于3D资产创作。

  随着“原生”三维扩散技术的发展,特别是通过Vecset扩散模型(VDM),三维形状生成得到了极大繁荣。尽管最新进展在生成高分辨率三维形状方面取得了令人鼓舞的成果,VDM在高速生成方面仍面临挑战。这些挑战不仅来自于扩散采样的加速困难,还包括VDM中VAE解码的加速问题,而这样一些方面在以往工作中尚未得到充分探索。

  为此,本文提出了FlashVDM,一种系统化框架,用于加速VDM中的VAE和DiT。针对DiT,FlashVDM通过引入渐进流蒸馏(Progressive Flow Distillation),实现了仅需5步推理的灵活扩散采样,同时保证了生成质量的稳定性。针对VAE,我们设计了具有自适应键值选择(Adaptive KV Selection)、分层体积解码(Hierarchical Volume Decoding)和高效网络设计的闪电级Vecset解码器。该解码器充分的利用Vecset的局部性和体积中形状表面的稀疏性,大幅度降低了计算量(FLOPs),极大减少了解码开销。我们将FlashVDM应用于Hunyuan3D-2,得到Hunyuan3D-2 Turbo版本。

  系统评测表明,该模型在保持与最新技术相当性能的同时,将重构推理时间缩短了45倍以上,生成推理时间缩短了32倍以上,显著优于现有快速三维生成方法。

  三角网格是三维应用中的基础结构,可以在一定程度上完成高效的修改与光栅化操作,同时兼容标准渲染流程。然而,现有的自动网格生成方法通常依赖于缺乏网格连续曲面质量的中间表示,导致转换后的网格输出较为稠密且效果不佳。尽管最新的自回归方法在直接建模网格顶点和面方面展现出潜力,但它们仍受限于面数、可扩展性及结构保真度等问题。

  为了解决这些挑战,本文提出Nautilus,一种面向艺术家风格网格生成的局部感知自编码器,利用流形网格的局部属性实现结构保真和高效表示。我们设计了一种创新的标记化算法,通过局部共享顶点和边,保持面与面之间的邻近关系,有效压缩了序列长度,从而支持生成多达5000个面的超大规模网格。

  此外,我们开发了双流点调节器(Dual-stream Point Conditioner),提供多尺度几何引导,捕捉细粒度几何特征,确保生成网格的全局一致性与局部结构保真。大量实验根据结果得出,Nautilus在保真度和可扩展性方面显著优于现有最先进方法。

  动态场景重建一直是三维视觉领域的长期挑战。近期方法通过引入额外的变形场将三维高斯点扩散技术(3D Gaussian Splatting)扩展至动态场景,并利用运动流等显式约束指导形变过程。然而,这一些方法通常独立地从单个时间点学习运动变化,导致在处理剧烈运动、极端几何形状或反射表面等复杂场景时重建效果不佳。

  为解决以上问题,本文设计了一个即插即用模块TimeFormer,使现有可变形三维高斯体重建方法能够从学习的角度隐式建模运动模式。具体而言,TimeFormer包含一个跨时间(Cross-Temporal)Transformer编码器,能够自适应学习可变形三维高斯体的时间关系。此外,我们提出了一种双流优化策略,将TimeFormer学习到的运动知识在训练阶段传递给基础网络,从而在推理时移除TimeFormer模块,保持原有渲染速度。大量多视角和单目动态场景的实验证明,TimeFormer在定性和定量指标上均带来了显著提升。

  8、SVG-Head:基于混合表面-体积高斯模型的高保真头部重建与实时编辑

  构建高保真且可编辑的头部数字头像是计算机视觉与计算机图形学中的重要挑战,推动了众多增强现实和虚拟现实(AR/VR)应用的发展。尽管近期进展已实现了照片级真实感渲染和合理的动画效果,头部编辑,尤其是实时外观编辑依然较为困难,原因主要在于几何结构与全局外观的隐式表示和纠缠建模。

  为此,本文提出了Surface-Volumetric Gaussian Head Avatar(SVG-Head),一种创新的混合表示方法,通过将3D高斯体绑定于FLAME网格来显式建模几何结构,并利用解耦的纹理图像捕捉全局外观。技术上,SVG-Head包含两种高斯体:表面高斯利用可学习纹理图像显式描述头像外观,便于实现实时纹理编辑;体积高斯则提升非朗伯区域(如嘴唇和头发)的重建质量。为建立三维世界坐标与纹理空间的对应关系,我们设计了基于网格感知的高斯体UV映射方法,借助FLAME网格提供的UV坐标,获得清晰纹理图像并实现实时渲染速度。进一步地,我们提出了层级优化策略,兼顾重建质量和编辑灵活性。

  基于NeRSemble数据集的实验表明,SVG-Head不仅生成了高保真渲染结果,还是首个能够为高斯头部头像获得显式纹理图像并支持实时外观编辑的方法。

  9、Stable-Sim2Real:基于两阶段深度扩散的线D数据模拟探索

  3D数据模拟旨在弥合模拟数据与线D数据之间的差距,这是现实三维视觉任务中的一个基础性问题。大多数3D数据模拟方法引入预定义的物理先验,但难以全面捕捉真实数据的复杂性。较优的解决方案是通过数据驱动方式,学习从合成数据到真实数据的隐式映射,然而该方向近来进展有限。

  本文提出了一种基于全新两阶段深度扩散模型的数据驱动3D模拟新路径——Stable-Sim2Real。第一阶段通过微调Stable Diffusion模型,生成真实与合成深度图的残差,产出稳定但较粗糙的深度结果,其中部分局部区域可能偏离真实模式。为此,第二阶段将合成深度与第一阶段输出深度一并输入扩散模型,并通过3D判别器辨识的显著区域调节扩散损失,从而增强细节表现。我们同时提出了一套新的基准评测方案,用于评估3D数据模拟方法。

  大量实验证明,基于本方法生成的3D模拟数据训练网络,可明显提升现实三维视觉任务的性能。此外,评测结果也展示了本方法生成数据与真实捕获数据的高度相似性。

  腾讯混元拥有深厚的大模型研发基础,在国际学术顶级会议上持续发表前沿成果,2025年在各类国际顶级学术会议中发表成果突破百篇,目前腾讯混元顶尖技术团队持续热招!期待更多热爱AI大模型的优秀人才加入我们,共同探索新的技术突破,一起构建向善的AGI!



上一篇:辣言辣语_红辣椒评论 下一篇:校企协作共探智能文档图画处理前沿技能