LLaMA-Mesh：清華與英偉達攜手打造智能自然語言驅動的3D模型生成系統

AI工具6個月前發布 AI工具集

1,591 0 0

LLaMA-Mesh是一項由清華大學與NVIDIA聯合開發的創新項目，旨在將3D網格生成技術與大型語言模型（LLMs）結合，用戶可以通過簡單的文本提示直接生成3D模型。該項目采用OBJ文件格式，將3D網格的頂點坐標和面定義轉換為文本，并通過頂點量化技術進行優化，使模型能夠理解和生成復雜的3D網格。LLaMA-Mesh以其卓越的語言理解和生成能力，提供了一種全新的、直觀高效的3D內容創作方式。

LLaMA-Mesh是什么

LLaMA-Mesh是清華大學與NVIDIA共同推出的一項性項目，旨在將3D網格生成與大型語言模型（LLMs）相結合，通過文本提示直接生成3D模型。該項目采用OBJ文件格式，以文本形式表示3D網格的頂點坐標和面定義，并利用頂點量化技術優化數據處理，這使得模型能夠更好地理解和生成3D網格。LLaMA-Mesh能夠生成高質量的3D網格，保持強大的語言理解和生成能力，為3D內容創作提供了更加直觀和高效的方法。

LLaMA-Mesh：清華與英偉達攜手打造智能自然語言驅動的3D模型生成系統

LLaMA-Mesh的主要功能

3D網格生成：根據用戶輸入的文本提示生成對應的3D網格模型。
網格理解：能夠理解和解釋3D網格的結構特征。
文本與網格交互輸出：在對話中生成文本和3D網格的交替輸出，實現互動式設計。
語言能力保持：在擴展至3D網格生成的同時，保持模型的文本理解與生成能力。

LLaMA-Mesh的技術原理

3D表示：
- OBJ文件格式：利用OBJ文件格式將3D網格的頂點坐標和面定義以文本形式表示，從而便于語言模型的處理。
- 頂點量化：將頂點坐標量化至固定的區間，減少標記數量，使模型能夠處理更長的序列，同時保留幾何細節。
預訓練模型：選擇經過指令調整的LLaMA3.1-8B-Instruct預訓練模型，具備理解文本提示和生成3D網格的能力。
3D任務微調：
監督微調（SFT）數據集：構建包含文本-3D對與交替文本-3D對話的數據集，通過微調使模型掌握3D網格生成的技能。
規則與LLM增強：結合規則方法與基于語言模型的增強手段，構建訓練數據，以提升模型的3D理解與生成能力。
統一模型：
文本與3D網格統一：在一個統一的模型中生成文本和3D網格，實現多模態內容生成。