標簽:智能語音識別

X-R1

X-R1是基于強化學習的低成本訓練框架,能加速大規模語言模型的后訓練(Scaling Post-Training)開發。X-R1用極低的成本訓練0.5B(5億參數)規模的R1-Zero模型...
閱讀原文

ACE++

ACE++是阿里巴巴通義實驗室推出的先進的圖像生成與編輯工具,通過指令化和上下文感知的內容填充技術,實現了高質量的圖像創作和編輯功能。
閱讀原文

MVoT

MVoT(Multimodal Visualization-of-Thought)是微軟研究院、劍橋大學語言技術實驗室、中國科學院自動化研究所推出的新型多模態推理范式,基于生成圖像可視化...
閱讀原文

播記

播記是專為播客創作者設計的智能節目筆記(Shownotes)生成工具。通過AI技術,能快速提取播客音頻中的關鍵信息,自動生成包含節目主題、嘉賓介紹、重要觀點、...
閱讀原文

SynCD

SynCD(Synthetic Customization Dataset)是卡內基梅隆大學和Meta推出的高質量合成訓練數據集,用在提升文本到圖像模型的定制化能力。SynCD包含多個相同對象...
閱讀原文

Sky-T1

Sky-T1是加州大學伯克利分校Sky Computing實驗室的研究團隊NovaSky發布的開源推理AI模型,名為Sky-T1-32B-Preview。是首個開源推理模型,訓練數據集和代碼均...
閱讀原文

豆包向量化API

豆包向量化API是由字節跳動研發的語義向量化模型,名為Doubao-embedding,主要面向向量檢索的使用場景,支持中、英雙語,能處理最長4K的上下文長度。
閱讀原文

Hi.AI

Hi.AI 是 AI 聊天應用,用戶能創建具有獨特個性的數字朋友,與各種 AI 角色進行沉浸式聊天。用戶可以與名人、虛構人物或歷史人物的 AI 版本就任何話題展開對...
閱讀原文

Ingredients

Ingredients是強大的框架,基于將多個特定身份(ID)照片與視頻擴散Transformer相結合,用在定制視頻創作。Ingredients基于三個核心模塊實現高度定制化的視頻...
閱讀原文

Fineshare VoiceTrans

Fineshare VoiceTrans 是實時 AI 變聲器,能輕松改變自己的聲音,適應不同的場景和需求。Fineshare VoiceTrans 提供多種功能,包括真實的 AI 變聲、零延遲的...
閱讀原文

百度AI搜

百度AI搜是百度基于文心大模型打造的桌面端AI搜索引擎。整合了百度搜索引擎、百度健康、百度律臨、百度文庫、百度教育等多個內容生態,確保搜索結果的可靠性...
閱讀原文

TECHSPECS

TECHSPECS(TechSpecs Ray)是創新的AI驅動媒體播放器,通過實時AI字幕技術革新您的視聽體驗。支持99種語言的字幕生成,打破了語言障礙,讓全球用戶都能享受...
閱讀原文

Wavy

Wavy是AI驅動的照片編輯應用,基于先進的AI技術,將用戶的照片轉換成具有藝術感的杰作。Wavy主要功能包括AI藝術生成器、視覺放大、即時藝術創作、照片提升和...
閱讀原文

WIME

WIME是上海微盟企業發展有限公司推出的AI電商內容創作平臺,專為電商和新媒體領域設計。基于AI技術,幫助用戶一鍵生成多風格圖片和文案,實現從創意到成品的...
閱讀原文

ERA-42:星動紀元全新端到端原生機器人大模型實現智能化交互與高效任務執行

ERA-42是北京星動紀元推出的端到端原生機器人大模型,與自研的五指靈巧手星動XHAND1結合,能完成100多種復雜靈巧操作任務。ERA-42無需預編程,具備快速學習新...
閱讀原文