AI工具
Step-Audio-AQAA
Step-Audio-AQAA 是 StepFun 團隊推出的端到端大型音頻語言模型,專門用于音頻查詢-音頻回答(AQAA)任務。能直接處理音頻輸入生成自然、準確的語音回答,無...
GLM-4.1V-Thinking
GLM-4.1V-Thinking是智譜AI推出的開源視覺語言模型,專為復雜認知任務設計,支持圖像、視頻、文檔等多模態輸入。模型在GLM-4V架構基礎上引入思維鏈推理機制,...
BlenderFusion
BlenderFusion是Google DeepMind推出的生成式視覺合成框架,將傳統的 3D 編輯軟件(Blender)與AI 模型相結合,實現精準的幾何編輯和多樣的視覺合成。
ThinkSound
ThinkSound是阿里通義語音團隊推出的首個CoT(鏈式思考)音頻生成模型,用在視頻配音,為每一幀畫面生成專屬匹配音效。模型引入CoT推理,解決傳統技術難以捕...
粵公網安備 44011502001135號