AI 3D 生成天花板再拉升！清华团队炼成 3D Scaling Law

作者：老汪软件技巧
发表时间：2024-09-23 15:01
浏览量：59

Tripo 2.0 效果如此哇塞，所以——

Tripo 2.0 如何炼成？

从技术上层层解剖，Tripo 2.0 在实现过程中打满了一个词：3D Scaling Law。

首先，Tripo 2.0 基于海量千万级 3D ⾼质量数据库，采⽤概率性的⽣成式建模⽅法，通过学习捕捉⼤规模数据中的⼏何和材质分布。

由此，Tripo 2.0 更好地保证了输出的质量、增强了模型的鲁棒性和泛化能⼒。

其次，它采用了 DiT 和 U-Net 模型的复杂混合架构。

DiT 擅⻓捕捉 3D 结构中的全局上下⽂和⻓距离依赖关系，而 U-Net 精于保留精细的细节和局部特征，Tripo 2.0 正是融合了这两种架构的优势。

再者，采⽤最先进的训练算法，Tripo 2.0 ⼏何和材质⽣成模型均基于最先进的⼤规模流模型，拥有数⼗亿参数。

同时采⽤了 guidance distillation 和 step distillation，通过蒸馏提⾼效率，在不牺牲质量的前提下⼤幅优化了性能。

种种技术加持下，在 3D 生成形状、纹理质量、细节表现、输⼊条件的遵循性以及输出多样性⽅⾯，Tripo 2.0 拿下新 SOTA，成为新晋 “五边形” 战士：

之前，Tripo 2.0 背后团队还与其他团队合作，推出了一箩筐学术成果，被 Siggraph、CVPR、ICLR、ECCV 等顶会接收。

比如 Wonder3D，通过一个跨域扩散模型生成一致性的多视图法线贴图和相应的彩色图像，然后利用一种新颖的法线融合算法快速、高质量地重建 3D 几何体。

与现有的基于分数蒸馏采样（SDS）的方法相比，Wonder3D 在效率、一致性和细节上都有显著提升，能够在 2-3 分钟内完成重建。

再比如 TGS：Triplane Meets Gaussian Splatting，同样被 CVPR 2024 收录。

这项技术利用 Transformer 网络和一种新颖的 Triplane-Gaussian 混合表示，使得从单张图片中重建 3D 模型变得更加高效和精确。

更多细节，感兴趣的童鞋可以自行查阅。

总之，Tripo 2.0 并非一蹴而就，背后有众多技术积累。

3D 世界的 Scaling Law

最后，我们来正式认识一下 Tripo 2.0 背后的公司。

V****AST，去年 3 月成立，是一家专注于在 3D 大模型研发的 AI 公司。

公司目标是 “通过打造⼤众级别的 3D 内容创作⼯具，建⽴ 3D 的 UGC 内容平台，让基于 3D 的空间成为用户体验、内容表达、提升新质⽣产⼒的关键要素。”

公开资料显示，该公司的 CEO、CTO 都是商汤出身：

创始人兼 CEO 宋亚宸，曾在商汤落地过多个从零到一的 AI 项目，曾参与大模型六小强之一 MiniMax 的创立；CTO 梁鼎，清华本硕博，师从戴琼海院士，曾任商汤通用模型负责人。

成立一年半以来，这家公司动作频频。

首先在今年年初，亮相了自家首个 3D 大模型 Tripo 1.0。

Tripo 1.0 参数量数十亿，用上它，从单图 / 文字生成 3D 网格模型仅需要 8 秒。

_清华拉练路线_清华ra

△3D 建模经典之「牛油果扶手椅」，Tripo 1.0 生成

上线半年内，Tripo 1.0 全球用户生成的 3D 模型超过了 500 万个。

500 万个是什么概念呢？约为全球前三大 3D 模型数据库总和。

到了今年 3 月初，VAST 又联合 Stable Diffusion 背后的 Stability AI，共同推出了开源的 3D 基础模型 TripoSR。

因其能够达成 “0.5 秒完成单图生成 3D 模型” 的成就，在 3D 生成领域的开源届广受欢迎，至今 GitHub 上揽星 4.3k。

现在，Tripo 2.0 又问世了，已经在线可玩。

得益于 3D Scaling Law 带来的效果提升，Tripo 的这三次更新时间跨度仅仅有 9 个月。

而且有速度也有质量，效果在业内外颇受认可。

拿一则新消息来佐证一下：不久前，世界最大在线游戏开发平台 Roblox 官宣入局 AI 3D 生成，但截至目前，Tripo 都是 Roblox 玩家最风靡的 3D 建模的趁手工具。

接下来的 VAST 会带着 Tripo 去向什么方向？

量子位寻回的答案是，至少在技术方面，VAST 会持续追寻 3D 生成式 AI 的 Scaling Law 研究模型规模、数据量和生成质量之间关系的基本原理，同时寻找数据、表征和模型架构的可扩展范式。

既致力于推动 3D 生成式 AI 的边界，也会不断探索更整体的（Holistic）3D 生成。

就还挺令人期待的。

在语言模型和视频模型带给这个世界一点小小震撼过后，人们也希望 3D 生成赛道能滋养出属于自己的 ChatGPT 时刻。

毕竟 3D 的 AI 生成与其它 AI 生成赛道相比，情况比较特殊，不仅 AI 生成后人工二改技术难度大，如果模型效果表现不好，想要仅凭增加抽卡次数来达到满意度，不如趁早自己画（不是）。

好在 3D 生成行业深孚众望，一路前行着——

回顾过去的两年时间，尤其在 2023 年末到 2024 年间，3D 生成技术得到了快速发展。

不仅在效果、速度方面均有提升，还实现了 “效率高、成本低、创新性强和可定制性强” 的特点。

技术飞快进步的同时，整个行业的人才密度都在不断增大。

国内，以 VAST 为代表，初创公司多来自全球知名高校和科研机构；放眼国外，AI 教母李飞飞首次创业成立的空间智能公司 World Labs，也着眼于 3D 生成世界，宣布长期目标是构建大世界模型（LWM）来感知、生成 3D 世界并与之交互。

众人拾柴火焰高嘛。

可以说，因为人才与技术、效果与场景的清晰和进步，现在 AI 3D 生成这个赛道，渐渐走进了更多人的视野之中。

而 3D Scaling Law 或将带来的突破性进展，似乎已经预示了人工智能领域下一个焦点的方向。

—完—

上一条查看详情 +实践篇：如何编写线程安全的类

下一条查看详情 +海南麻将游戏开发以及玩法规则介绍