以下文章來源于VAST AI ,作者Tripo2.0
達晨完成對3D大模型領(lǐng)軍企業(yè)VAST新一輪融資的領(lǐng)投。近期,VAST連續(xù)完成了兩輪共計數(shù)億元的融資,天使輪由綠洲資本領(lǐng)投,Pre-A輪領(lǐng)投方為達晨財智以及春華創(chuàng)投,并創(chuàng)造了3D大模型賽道的最?融資?額。
同時,VAST全新的3D大模型Tripo 2.0也在今天與大家正式見面。
| 關(guān)于VAST
VAST成?于2023年3?,是?家致?于通?3D大模型研發(fā)的AI公司,公司?標是通過打造?眾級別的3D內(nèi)容創(chuàng)作?具,建?3D的UGC內(nèi)容平臺,讓基于3D的空間成為??體驗、內(nèi)容表達、提升新質(zhì)?產(chǎn)?的關(guān)鍵要素。
2024年初,VAST推出數(shù)?億參數(shù)級別的3D?模型Tripo 1.0,8秒就可用圖/?生成3D?格模型,上線至今全球???成超過500萬個3D模型。
2024年3?,VAST與全球頂級開源社區(qū)Stability AI共同推出開源3D基礎(chǔ)模型TripoSR,該模型創(chuàng)造了0.5秒完成單圖?3D模型的頂尖表現(xiàn),?今仍是3D?成領(lǐng)域開源社區(qū)的熱?項?。
今天,VAST推出Tripo 2.0,驗證了3D大模型的Scaling Law,也將3D生成推向下一個里程碑。
Tripo 2.0采?了融合DiT和U-Net模型的復(fù)合架構(gòu),通過學(xué)習(xí)捕捉?規(guī)模數(shù)據(jù)中的?何和材質(zhì)分布,更好地保證了3D模型?何形狀的細節(jié)和材質(zhì)的輸出質(zhì)量。
Tipo 2.0能夠完成10秒?成形狀?何、10秒?成紋理及PBR,為3D?成領(lǐng)域設(shè)?了通?模型新的效果標準。
據(jù)我們所知,Tripo在所有的3D生成任務(wù)的效果中均處于全球領(lǐng)先地位。
GPTEval3D:基于MLLM的評估指標(3D生成形狀、紋理質(zhì)量、細節(jié)表現(xiàn)、輸入條件遵循性、輸出多樣性),旨在評估生成的3D內(nèi)容的語義準確性和質(zhì)量
| 理解單個物體是理解世界的開始
對于創(chuàng)作3D內(nèi)容的用戶而言,文字輸入的生成方式提供了“言出法隨、創(chuàng)造世界”的可能,圖片輸入則提供更多創(chuàng)作過程中的可控性的。
與傳統(tǒng)3D重建的應(yīng)用場景不同,大部分純粹的創(chuàng)意概念可能超出了現(xiàn)實世界的物理限制。許多游戲、設(shè)計項目或虛擬場景中的3D內(nèi)容實際上也沒有現(xiàn)實中的實體。某些環(huán)境異常惡劣,即使投入大量資金購買先進的掃描設(shè)備,也無法掃描、修復(fù)或重建這些內(nèi)容。
因此,3D大模型對于文字生成復(fù)雜組合物體的能力、以及單圖輸入的空間理解及還原的能力,就成為評價體系中最為重要的考察標準。
對于Tripo而言,這意味著需要具備以下能力:
第一是精準的語言理解能力,將用戶的文本輸入意圖準確地反映成物體的幾何結(jié)構(gòu)和組成細節(jié),還包括文本中各部分之間的空間關(guān)系;
第二是對空間的深度和精確還原能力,確保從任意視角的單一圖片中準確推斷三維結(jié)構(gòu)和深度信息,精確還原復(fù)雜物體的幾何形狀和紋理細節(jié),并保持整體一致性;
第三是對于物理規(guī)律和常識的理解能力,確保生成的內(nèi)容既符合用戶意圖,又在遵循基本物理法則的情況下保持邏輯一致性,使結(jié)果在創(chuàng)意自由度和現(xiàn)實合理性之間找到平衡;
這就是Tripo交出的答卷:見微知著,探索世界的背面。
比如“長著牙、拿著樹葉的葉子精怪”、“有番茄、生菜、胡蘿卜的菜籃”、“站在水面玻璃球上的火烈鳥”:
以上效果由www.tripo3d.ai 直出,均為AI生成3D模型的六視渲染圖
再以這張翡翠布花的圖片為例,左邊的花束與主干花束是黏連還是分開?葉片之間的重疊關(guān)系是什么?花束的背后是什么樣?
再比如這艘船,桅桿的結(jié)構(gòu)是什么?船艙的結(jié)構(gòu)如何設(shè)計?
除了精進的文本和視覺輸入理解能力之外,Tripo 2.0 的生成結(jié)果也擁有領(lǐng)先的質(zhì)量和保真度,在形狀和紋理質(zhì)量、細節(jié)表現(xiàn)都樹立了新的行業(yè)標準(new state-of-the-art)。
Tripo不僅能生成高度細致和準確的3D形狀,捕捉復(fù)雜的特征和幾何結(jié)構(gòu),還能生成高保真度的PBR(基于物理的渲染)材質(zhì),呈現(xiàn)出精細的表面屬性和逼真豐富的視覺效果。
達晨投資團隊表示:“數(shù)千年來,人類文明的傳承方式主要是文字、圖像和模型。近幾年在人工智能的加持下,這些文明的表達方式發(fā)生了革命性變化。達晨在內(nèi)容生成方面已經(jīng)布局了大語言模型、文生圖、文生視頻等,而文生/圖生3D是“新文明”拼圖的最后一環(huán)。正如‘AI教母’李飛飛的觀點,人類是生活在3D世界中的,而人工智能要真正追上人類,必須突破3D的理解和生成。第一代互聯(lián)網(wǎng)主要基于語言的交互,第二代互聯(lián)網(wǎng)主要基于圖片和視頻的交互,下一代互聯(lián)網(wǎng)一定是3D內(nèi)容的交互,而面向C端的3D創(chuàng)作工具就成為了關(guān)鍵環(huán)節(jié)、重中之重。相比較VAST在2B方向?qū)τ趥鹘y(tǒng)建模師的幫助,我們更看好其在2C方向?qū)τ趶V大消費者生活方式的改變。試想一下,大到房屋家具、小到鞋包杯碗,身邊的物品都可以按照自己的心意來設(shè)計和制造,個性化將得到極大解放,每個人心中的創(chuàng)意都將得以展現(xiàn)。如果再配合上MR眼鏡,我們可以隨時隨地改造世界,在下一代互聯(lián)網(wǎng)中共享空間文明。”