AI工具

DiffusionGPT

DiffusionGPT是由來(lái)自字節(jié)跳動(dòng)與中山大學(xué)的研究人員推出的一個(gè)開(kāi)源的大模型(LLM)驅(qū)動(dòng)的文本到圖像生成系統(tǒng),旨在解決文生圖領(lǐng)域無(wú)法處理不同的輸入或者僅限...
閱讀原文

MetaGPT

MetaGPT是一個(gè)創(chuàng)新的元編程框架,結(jié)合了大語(yǔ)言模型和多智能體協(xié)作系統(tǒng),旨在通過(guò)模擬人類工作流程來(lái)解決復(fù)雜問(wèn)題。該框架的核心在于將標(biāo)準(zhǔn)化操作程序(SOPs)...
閱讀原文

Genmo

Genmo是一個(gè)專注于人工智能的創(chuàng)意平臺(tái),用戶可以在 Genmo 上創(chuàng)建視頻、動(dòng)畫(huà)、圖像等。該平臺(tái)提供了一系列的工具和服務(wù),旨在幫助用戶通過(guò)AI技術(shù)輕松創(chuàng)作和分...
閱讀原文

MotionCtrl

MotionCtrl是由來(lái)自騰訊和香港大學(xué)等機(jī)構(gòu)的研究人員推出的一個(gè)為視頻生成模型設(shè)計(jì)的統(tǒng)一且靈活的運(yùn)動(dòng)控制器,能夠獨(dú)立地控制視頻中的相機(jī)運(yùn)動(dòng)和物體運(yùn)動(dòng)視角...
閱讀原文

AnimateDiff

AnimateDiff是由上海人工智能實(shí)驗(yàn)室、香港中文大學(xué)和斯坦福大學(xué)的研究人員推出的一款將個(gè)性化的文本到圖像模型擴(kuò)展為動(dòng)畫(huà)生成器的框架,其核心在于它能夠利用...
閱讀原文

Depth Anything

Depth Anything是由來(lái)自Tiktok、香港大學(xué)和浙江大學(xué)的研究人員推出的一個(gè)為單目深度估計(jì)設(shè)計(jì)的深度學(xué)習(xí)模型,旨在處理各種情況下的圖像并估計(jì)其深度信息。該...
閱讀原文

Boximator

Boximator是有字節(jié)跳動(dòng)的研究團(tuán)隊(duì)開(kāi)發(fā)的一種視頻合成技術(shù),旨在生成豐富且可控的運(yùn)動(dòng),以增強(qiáng)視頻合成的質(zhì)量和控制性。該技術(shù)通過(guò)引入兩種類型的約束框(硬框...
閱讀原文

DiT

DiT(Diffusion Transformers)是一種新型的擴(kuò)散模型,由William Peebles(Sora的研發(fā)負(fù)責(zé)人之一) 與紐約大學(xué)助理教授謝賽寧提出,結(jié)合了去噪擴(kuò)散概率模型(...
閱讀原文

VideoPoet

VideoPoet是由谷歌的研究團(tuán)隊(duì)開(kāi)發(fā)的一種基于大模型的AI視頻生成方案,支持從文本、圖像或視頻輸入中合成高質(zhì)量的視頻內(nèi)容,并生成匹配的音頻。VideoPoet的核...
閱讀原文

Stable Diffusion 3

Stable Diffusion 3 是由 Stability AI 開(kāi)發(fā)的一款先進(jìn)的文本到圖像生成模型,是 Stable Diffusion 系列模型的最新迭代,旨在通過(guò)文本提示生成高質(zhì)量的圖像。...
閱讀原文

ConsiStory

ConsiStory是由NVIDIA和特拉維夫大學(xué)的研究人員共同開(kāi)發(fā)的一種無(wú)需訓(xùn)練的文本生成圖像的方法,可以實(shí)現(xiàn)讓圖像在保持風(fēng)格和主題不變的情況下,遵循不同的文本...
閱讀原文

ScreenAgent

ScreenAgent是一個(gè)由吉林大學(xué)人工智能學(xué)院的研究團(tuán)隊(duì)開(kāi)發(fā)的計(jì)算機(jī)控制智能體,該智能體是基于視覺(jué)語(yǔ)言模型(VLM)構(gòu)建的,能夠與真實(shí)計(jì)算機(jī)屏幕進(jìn)行交互。Scr...
閱讀原文

YOLOv9

YOLOv9是一個(gè)由臺(tái)北中研院和臺(tái)北科技大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)推出的新一代先進(jìn)的目標(biāo)檢測(cè)系統(tǒng),是YOLO(You Only Look Once)算法系列的最新版本。YOLOv9在前代...
閱讀原文

GPT-SoVITS

GPT-SoVITS是一個(gè)開(kāi)源的聲音克隆項(xiàng)目,該語(yǔ)音合成工具結(jié)合了GPT模型和SoVITS變聲器技術(shù),僅需通過(guò)少量的樣本數(shù)據(jù)實(shí)現(xiàn)高質(zhì)量的語(yǔ)音克隆和文本到語(yǔ)音轉(zhuǎn)換。該工...
閱讀原文

Mistral Large

Mistral Large是由法國(guó)人工智能公司Mistral AI開(kāi)發(fā)的一款先進(jìn)的大型語(yǔ)言模型(LLM),具備頂級(jí)的推理能力,能夠處理復(fù)雜的多語(yǔ)言推理任務(wù),包括文本理解、轉(zhuǎn)...
閱讀原文