AI項目和框架

Banana Slides

Banana Slides 是開源的 AI 演示文稿生成工具,基于 nano banana pro 模型開發。以極簡設計和強大的 AI 功能為亮點,幫助用戶快速創建高質量的 PPT。用戶可以...
閱讀原文

萬相2.6

萬相2.6 是阿里通義推出的面向專業影視制作和圖像創作的先進視頻生成系列模型。模型支持角色扮演功能,可讓用戶通過上傳視頻和輸入提示詞,快速生成具有電影...
閱讀原文

通義百聆

通義百聆是阿里通義實驗室推出的企業級語音基座大模型,整合 Fun-ASR 語音識別和 Fun-CosyVoice 語音合成兩大模型,專為復雜環境下的語音應用設計,通過 Cont...
閱讀原文

Nemotron 3

Nemotron 3 是英偉達推出的新型開源模型系列,包括 Nano、Super 和 Ultra 三種尺寸。模型采用突破性的混合專家混合(MoE)架構,專為構建高效、準確的多智能...
閱讀原文

LightX2V

LightX2V 是商湯開源的行業首個能實現實時視頻生成的推理框架。框架支持多種視頻生成任務,如文本到視頻(T2V)和圖像到視頻(I2V),集成多種先進視頻生成技...
閱讀原文

UnityVideo

UnityVideo 是香港科技大學聯合快手可靈團隊、清華大學等推出的新型多模態、多任務視頻生成框架,能通過整合多種視覺模態(如分割、骨架、深度、光流等)和訓...
閱讀原文

Wan-Move

Wan-Move 是阿里巴巴通義實驗室等機構開源的運動可控視頻生成框架,通過潛在軌跡引導實現高質量的視頻運動控制。核心亮點在于無需對現有圖像到視頻模型進行架...
閱讀原文

Paper2Slides

Paper2Slides 是香港大學開源的AI工具,能快速將學術論文、報告和文檔轉換為專業幻燈片或海報。采用 RAG(檢索增強生成)機制,直接從文檔本身提取內容,確保...
閱讀原文

OpenScreen

OpenScreen 是開源免費的屏幕錄制工具,是 Screen Studio 的平替。工具支持 Mac 和 Windows 系統,具備手動縮放、自定義縮放深度、裁剪視頻、選擇背景、添加...
閱讀原文

LLaDA 2.0

LLaDA 2.0 是螞蟻集團開源的離散擴散大語言模型(dLLM),包含 16B(mini)和 100B(flash)兩個版本。打破了擴散模型難以擴展的瓶頸,首次將參數規模擴展至 ...
閱讀原文

Claude-Mem

Claude-Mem 是專為 Claude Code 設計的開源插件,能為 AI 提供長期記憶能力。Claude-Mem通過自動存儲和管理會話中的關鍵信息,包括工具調用、對話記錄和項目...
閱讀原文

Gemini TTS

Gemini TTS 是谷歌推出的先進文字轉語音技術,最新版本為 Gemini 2.5 Flash 和 Pro 模型。支持多說話人、多語言(24種以上)合成,可生成自然流暢且富有情感...
閱讀原文

SCAIL

SCAIL(Studio-grade Character Animation via In-context Learning)是智譜AI推出的面向影視級標準的角色動畫生成框架??蚣芡ㄟ^創新的3D一致性姿態表征和全...
閱讀原文

SSVAE

SSVAE(Spectral-Structured VAE)是智譜AI推出的優化視頻生成的新型變分自編碼器。SSVAE通過譜分析發現,視頻 VAE 的隱空間若具備時空低頻偏置和通道特征值...
閱讀原文

Kaleido

Kaleido 是智譜AI開源的多主體視頻生成框架,能解決多主體視頻生成中的主體一致性與背景解耦問題??蚣芡ㄟ^創新的數據構建管線和 R-RoPE(Reference Rotary P...
閱讀原文
123160