AI工具

Kandinsky-3:靈活適應(yīng)多種圖像生成任務(wù)的開源文本到圖像生成框架

Kandinsky-3是基于潛在擴散模型的文本到圖像(T2I)生成框架,以高質(zhì)量和逼真度在圖像合成領(lǐng)域脫穎而出。Kandinsky-3能適應(yīng)多種圖像生成任務(wù),包括文本引導(dǎo)的...
閱讀原文

CAVIA:多視角視頻生成框架打造沉浸式視覺體驗

CAVIA是蘋果公司、得克薩斯大學(xué)奧斯汀分校、谷歌聯(lián)合推出的多視角視頻生成框架,能將單一輸入圖像轉(zhuǎn)換成多個時空一致的視頻序列。框架基于引入視角集成注意力...
閱讀原文

Yoodli:智能演講助手提供實時反饋與提升技巧

Yoodli是AI驅(qū)動的演講教練平臺,世界級公共演講冠軍和TED演講者團隊開發(fā)。通過人工智能分析演講者的口頭內(nèi)容、聲音和視覺呈現(xiàn),提供即時反饋和進度跟蹤。用戶...
閱讀原文

Metaview:智能面試摘要工具提升面試效率與信息提煉能力

Metaview是AI驅(qū)動的面試摘要工具,自動化生成面試筆記,提高招聘效率。通過識別關(guān)鍵信息、技能和反饋,將面試內(nèi)容結(jié)構(gòu)化成易于閱讀的摘要。Metaview支持實時...
閱讀原文

Flex3D:創(chuàng)新的雙階段3D生成框架推動虛擬內(nèi)容創(chuàng)作的新時代

Flex3D是由Meta的GenAI團隊和牛津大學(xué)研究團隊推出的創(chuàng)新的兩階段3D生成框架,能基于任意數(shù)量的高質(zhì)量輸入視圖,解決從文本、單張圖片或稀疏視圖圖像生成高質(zhì)...
閱讀原文

StoryTeller:全自動長視頻描述生成系統(tǒng)提升內(nèi)容創(chuàng)作效率與質(zhì)量

StoryTeller是字節(jié)跳動、上海交通大學(xué)和北京大學(xué)共同推出的系統(tǒng),能基于音頻視覺角色識別技術(shù)改善長視頻描述的質(zhì)量和一致性。系統(tǒng)結(jié)合低級視覺概念和高級劇情...
閱讀原文

DELIFT:數(shù)據(jù)驅(qū)動的高效語言模型指令微調(diào)技術(shù)提升智能交互體驗

DELIFT(Data Efficient Language model Instruction Fine-Tuning)是新型算法,用在優(yōu)化大型語言模型(LLMs)在指令調(diào)優(yōu)、任務(wù)特定微調(diào)和持續(xù)微調(diào)三個關(guān)鍵階...
閱讀原文

Runner H:智能助手重塑工作效率,助你輕松完成任務(wù)

Runner H是H公司推出的首款A(yù)I代理產(chǎn)品,能幫助企業(yè)和開發(fā)者處理質(zhì)量保證和流程自動化等任務(wù)。Runner H基于H公司自有的、僅200億參數(shù)的緊湊型大型語言模型(LL...
閱讀原文

知周AI筆記:多功能本地AI筆記軟件助你高效組織與管理信息

知周AI筆記是多功能本地AI筆記,輕量級的本地Markdown筆記軟件,AI助理;AI續(xù)寫; AI一鍵生成小紅書/論文/大綱/競品分析等文案。支持Markdown語法,提供實時...
閱讀原文

HART:自回歸視覺生成模型推動圖像生成的創(chuàng)新與精準

HART(Hybrid Autoregressive Transformer)是麻省理工學(xué)院研究團隊推出的自回歸視覺生成模型。能直接生成1024×1024像素的高分辨率圖像,質(zhì)量媲美擴散模型。H...
閱讀原文

WebDreamer:利用大語言模型提升網(wǎng)絡(luò)規(guī)劃效率的創(chuàng)新框架

WebDreamer是俄亥俄州立大學(xué)和Orby AI研究團隊推出的基于模型規(guī)劃的網(wǎng)絡(luò)智能體,基于大型語言模型(LLMs),特別是GPT-4o,作為世界模型預(yù)測網(wǎng)站上的交互結(jié)果...
閱讀原文

Tatship:個性化紋身設(shè)計與試戴效果模擬的智能平臺

Tatship是虛擬紋身試戴平臺,讓用戶在實際紋身前,通過上傳照片來預(yù)覽紋身效果。用戶可以選擇預(yù)設(shè)紋身或上傳自己的設(shè)計,基于AI技術(shù)生成個性化紋身,在不同身...
閱讀原文

BALROG:評估大型語言模型與視覺語言模型在復(fù)雜動態(tài)環(huán)境中推理能力的基準測試工具

BALROG是評估大型語言模型(LLMs)和視覺語言模型(VLMs)在游戲上的推理能力,特別是模型在動態(tài)環(huán)境中的規(guī)劃、空間推理和探索能力。基于一系列挑戰(zhàn)性的游戲...
閱讀原文

AutoVFX:智能化自然語言視頻特效編輯工具提升創(chuàng)作效率與靈活性

AutoVFX是先進的物理特效框架,是伊利諾伊大學(xué)香檳分校研究團隊推出的,能根據(jù)自然語言指令自動創(chuàng)建真實感和動態(tài)的視覺特效(VFX)視頻。框架集成神經(jīng)場景建...
閱讀原文

CopyCoder:智能圖像識別助力編碼生成的全新AI工具

CopyCoder是創(chuàng)新的AI編程工具,支持用戶上傳應(yīng)用程序的截圖、UI設(shè)計圖或完整的應(yīng)用圖像,自動生成詳細的編碼提示詞。提示詞涵蓋應(yīng)用結(jié)構(gòu)、組件規(guī)劃和導(dǎo)入路徑...
閱讀原文