AI工具
DiffusionGPT
DiffusionGPT是由來(lái)自字節(jié)跳動(dòng)與中山大學(xué)的研究人員推出的一個(gè)開(kāi)源的大模型(LLM)驅(qū)動(dòng)的文本到圖像生成系統(tǒng),旨在解決文生圖領(lǐng)域無(wú)法處理不同的輸入或者僅限...
MotionCtrl
MotionCtrl是由來(lái)自騰訊和香港大學(xué)等機(jī)構(gòu)的研究人員推出的一個(gè)為視頻生成模型設(shè)計(jì)的統(tǒng)一且靈活的運(yùn)動(dòng)控制器,能夠獨(dú)立地控制視頻中的相機(jī)運(yùn)動(dòng)和物體運(yùn)動(dòng)視角...
AnimateDiff
AnimateDiff是由上海人工智能實(shí)驗(yàn)室、香港中文大學(xué)和斯坦福大學(xué)的研究人員推出的一款將個(gè)性化的文本到圖像模型擴(kuò)展為動(dòng)畫(huà)生成器的框架,其核心在于它能夠利用...
Depth Anything
Depth Anything是由來(lái)自Tiktok、香港大學(xué)和浙江大學(xué)的研究人員推出的一個(gè)為單目深度估計(jì)設(shè)計(jì)的深度學(xué)習(xí)模型,旨在處理各種情況下的圖像并估計(jì)其深度信息。該...
Stable Diffusion 3
Stable Diffusion 3 是由 Stability AI 開(kāi)發(fā)的一款先進(jìn)的文本到圖像生成模型,是 Stable Diffusion 系列模型的最新迭代,旨在通過(guò)文本提示生成高質(zhì)量的圖像。...
ConsiStory
ConsiStory是由NVIDIA和特拉維夫大學(xué)的研究人員共同開(kāi)發(fā)的一種無(wú)需訓(xùn)練的文本生成圖像的方法,可以實(shí)現(xiàn)讓圖像在保持風(fēng)格和主題不變的情況下,遵循不同的文本...
ScreenAgent
ScreenAgent是一個(gè)由吉林大學(xué)人工智能學(xué)院的研究團(tuán)隊(duì)開(kāi)發(fā)的計(jì)算機(jī)控制智能體,該智能體是基于視覺(jué)語(yǔ)言模型(VLM)構(gòu)建的,能夠與真實(shí)計(jì)算機(jī)屏幕進(jìn)行交互。Scr...
GPT-SoVITS
GPT-SoVITS是一個(gè)開(kāi)源的聲音克隆項(xiàng)目,該語(yǔ)音合成工具結(jié)合了GPT模型和SoVITS變聲器技術(shù),僅需通過(guò)少量的樣本數(shù)據(jù)實(shí)現(xiàn)高質(zhì)量的語(yǔ)音克隆和文本到語(yǔ)音轉(zhuǎn)換。該工...
Mistral Large
Mistral Large是由法國(guó)人工智能公司Mistral AI開(kāi)發(fā)的一款先進(jìn)的大型語(yǔ)言模型(LLM),具備頂級(jí)的推理能力,能夠處理復(fù)雜的多語(yǔ)言推理任務(wù),包括文本理解、轉(zhuǎn)...
粵公網(wǎng)安備 44011502001135號(hào)