秒杀Instant3D！上交大推新框架Bootstrap3D 显著提升3D生成能力

导读：

说起来关于那英已经聊了不知道多少次了只是最近在看了那英和孙楠的聊天以后又有了更多不一样的想法以前只是单纯觉得那英是紧张如今再回看其实主要还是被互联网影响太多了在那英和孙楠的聊天...

说起来，关于那英，已经聊了不知道多少次了。只是，最近在看了那英和孙楠的聊天以后，又有了更多不一样的想法。以前只是单纯觉得那英是紧张，如今再回看，其实主要还是被互联网影响太多了。01在那英和孙楠的聊天中，孙楠问那英，你以前的霸气都去哪了，那英直接就说：没了。那英的霸气，为何会没有了？其实在...

6月11日消息:上海交大和香港中文大学的研究团队推出了一个名为的新框架，它通过结合微调的3D感知多模态大模型，能够自动生成任意数量的高质量多视角图片数据，显著提升3D生成模型的能力。这个框架的合成数据集已经全面开源，供研究人员和开发者使用。

关键特点:

数据构建Pipeline:自动生成多视角图像数据和详细描述文本，是框架的核心创新之一。

文本提示生成:使用大语言模型生成创意和多样化的文本提示，为图像生成提供素材。

图像生成:结合2D扩散模型和扩散模型，根据文本提示创建单视图图像。

多视图合成:将单视图图像扩展为多视角图像，确保不同视角下的一致性。

质量筛选和描述重写:通过3D感知模型MV-LLaVA对图像进行质量筛选和描述文本的重写。

研究团队还提出了**训练timestep重安排（TTR）**策略，优化去噪过程的不同阶段，解决多视图扩散模型训练中的图像质量和视图一致性问题。TTR策略限制合成数据的训练时间步，主要参与早期去噪阶段，而真实数据参与所有时间步的训练，提供高频细节和真实感。

实验结果证明，使用TTR策略的多视图扩散模型在图像-文本对齐、图像质量和视图一致性方面表现优异，有效提升了多视图生成的效果。

项目地址：https://sunzey.github.io/Bootstrap3D/