AI工具

Gemini Fullstack LangGraph Quickstart

Gemini Fullstack LangGraph Quickstart 是谷歌DeepMind推出的開源項目,幫助開發者快速搭建基于 Google Gemini 2.5 和 LangGraph 的全棧智能研究助手。
閱讀原文

MoonCast

MoonCast 是零樣本播客生成系統,從純文本源合成自然的播客風格語音。通過長上下文語言模型和大規模語音數據訓練,能生成幾分鐘長的播客音頻,支持中文和英文。
閱讀原文

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本轉語音(TTS)模型,基于超過200萬小時的音頻數據訓練,支持13種語言。采用雙自回歸(Dual-AR)架構和強化學習與人類反饋...
閱讀原文

PlayDiffusion

PlayDiffusion是PlayAI推出的新型音頻編輯模型,基于擴散模型技術,專門用在音頻的精細編輯和修復。模型將音頻編碼為離散的標記序列,對需要修改的部分進行掩...

AiMakeSong

AiMakeSong 是基于人工智能的音樂和歌曲生成平臺,支持用戶通過簡單的文本輸入或歌詞創作來生成高質量的音樂作品。用戶可以選擇將文字描述轉化為音樂,或者將...
閱讀原文

Auto Think

Auto Think是快手Kwaipilot團隊開源的KwaiCoder-AutoThink-preview自動思考大模型,模型針對深度思考大模型存在的“過度思考”問題進行了深入研究,提出了一種...
閱讀原文

酷雀AI智能摳圖

酷雀AI智能摳圖是高效便捷的AI圖片處理工具。基于先進的AI技術,能快速精準地識別圖片中的主體自動去除背景,實現精細化摳圖。支持人像、物品或者復雜場景,...
閱讀原文

Firesearch

Firesearch 是 Mendable AI 團隊推出的 AI 驅動的深度研究工具。基于 Firecrawl 多源網絡內容提取技術,結合 OpenAI GPT-4o 的搜索規劃和內容生成能力,將復...
閱讀原文

CRIC深度智聯

CRIC深度智聯是克而瑞推出的中國首個房地產垂直領域的AI Agent。CRIC深度智聯基于克而瑞20年的行業經驗和海量數據積累,結合多模態大模型技術,為房地產行業...
閱讀原文

OCode

OCode 是終端原生 AI 編程助手,為開發者提供深度代碼庫智能和自動任務執行功能。與本地 Ollama 模型無縫集成,將企業級 AI 輔助直接融入開發流程中。終端原...
閱讀原文

Jaaz

Jaaz 是開源的 AI 設計工具,是 Lovart 的本地免費替代品。具備強大的 AI 設計能力,能智能生成設計提示,批量生成圖像、海報、故事板等。Jaaz 支持 Ollama、...
閱讀原文

VRAG-RL

VRAG-RL是阿里巴巴通義大模型團隊推出的視覺感知驅動的多模態RAG推理框架,專注于提升視覺語言模型(VLMs)在處理視覺豐富信息時的檢索、推理和理解能力。基...
閱讀原文

TrackVLA

TrackVLA是銀河通用推出的產品級端到端導航大模型。模型具備純視覺環境感知、語言指令驅動、自主推理和零樣本泛化能力,能實現從視覺感知到動作輸出的全鏈路...
閱讀原文

TEN VAD

TEN VAD 是高性能的實時語音活動檢測系統,專為企業級應用設計。TEN VAD能精確地檢測音頻流中的語音活動,具有低延遲、輕量級和高精度的特點。TEN VAD 基于先...
閱讀原文

Google AI Edge Gallery

Google AI Edge Gallery 是谷歌推出的實驗性應用,支持讓用戶在本地設備上體驗和使用機器學習(ML)及生成式人工智能(GenAI)模型。應用目前支持在 Android...
閱讀原文
15051525354279