標簽:能力
科大訊飛大模型競速2年多,答卷不只是語音
作者 | 褚杏娟 從 2022 年 12 月啟動“1+N”大模型技術攻關至今,科大訊飛已經在這個領域探索了兩年多的時間。作為將大模型融入自身業務的典型,訊飛在大模型探...
最后兩周!2024人工智能年度評選,AI時代的行業先鋒就等你來
組委會 發自 凹非寺量子位 | 公眾號 QbitAI為了讓更多行業者感受技術變革,也為了給予更多同行同路人掌聲與鼓舞,我們已啟動了2024人工智能年度評選。 今年是...
微軟開源視覺GUI智能體:增強GPT-4V能力,超3800顆星
文章轉載自公眾號:AIGC開放社區,本文只做學術/技術分享,如有侵權,聯系刪文。 隨著GPT-4V等多模態視覺大模型的出現,在理解和推理視覺內容方面獲得了巨大...
o1圖像理解神秘現身,網友瘋狂測試!Altman自曝:o2研究生級水平破105%
新智元報道編輯:桃子 【新智元導讀】完整版o1圖像理解能力,被提前「放出」了?網友曝出o1能夠識圖,進行推理總結?,F在,o1多模態一大波試用已經鋪屏全網。...
清華團隊革新MoE架構!像搭積木一樣構建大模型,提出新型類腦稀疏模塊化架構
CFM團隊 投稿量子位 | 公眾號 QbitAI探索更高效的模型架構, MoE是最具代表性的方向之一。 MoE架構的主要優勢是利用稀疏激活的性質,將大模型拆解成若干功能...
李開復回應一切:競技場排名“讓我們有信心繼續做預訓練”
GenAI 發自 凹非寺量子位 | 公眾號 QbitAI我們只落后OpenAI 5-6個月,但要進一步縮短這個時間差,大家的難度都很大。 國產大模型首次在國際最具挑戰的“大模型...
GPT-4o、NotebookLM帶來的AI語音新變化,聲網們是怎么想的?
GPT-4o 的語音演示,引燃了行業對于 AI 產品語音實時交互的想象,完全實時、可隨時打斷的 AI 助手,正成為新的 趨勢。 而 Google Labs 推出的 NotebookLM,則...
統一圖像生成,無需繁雜插件!智源發布擴散模型框架OmniGen
允中 發自 凹非寺量子位 | 公眾號 QbitAI多模態模型,統一圖像生成。 最新擴散模型框架來了。 智源研究院推出OmniGen,它能天然支持各種圖像生成任務,架構高...
突破短視頻局限!MMBench 團隊構建中長視頻開放問答評測基準,全面評估多模態大模型視頻理解能力
新宇投稿 凹非寺量子位 | 公眾號 QbitAIGPT-4o 四月發布會掀起了視頻理解的熱潮,而開源領軍者Qwen2也對視頻毫不手軟,在各個視頻評測基準上狠狠秀了一把肌肉...
古早費曼論文手寫公式也能轉LaTeX,還能看懂梗圖,馬斯克Grok新功能上線就火了
機器之心報道 編輯:張倩、陳陳Grok 大模型終于能看懂圖像了。設想一下,如果我們能夠將所有 LaTeX 時代之前的文本資料輸入到先進的大型語言模型(LLM)中,...
新擴散模型OmniGen一統圖像生成,架構還高度簡化、易用
機器之心發布 機器之心編輯部大型語言模型(LLM)的出現統一了語言生成任務,并徹底改變了人機交互。然而,在圖像生成領域,能夠在單一框架內處理各種任務的...
一個模型走天下!智源提出全新擴散架構OmniGen,AI生圖進入「一鍵生成」時代
新智元報道編輯:編輯部 HYZ 【新智元導讀】LLM統一了語言生成任務,圖像生成可以嗎?就在剛剛,智源推出了全新擴散模型架構OmniGen,單個模型就能生成圖像,...
大模型重塑版訊飛輸入法來了!能懂每個人的AI輸入
搭載訊飛星火端側輸入大模型、訊飛星火語音大模型的訊飛輸入法14.0亮相。 作者|程茜 編輯|漠影 智東西10月28日報道,訊飛輸入法又上新,這次是端側大模型重塑...
一塊顯卡理解一部電影,最新超長視頻理解大模型出爐!“大海撈針”準確率近95%,代碼已開源
允中 發自 凹非寺量子位 | 公眾號 QbitAI僅需1塊80G顯卡,大模型理解小時級超長視頻。 智源研究院聯合上海交通大學、中國人民大學、北京大學和北京郵電大學等...
一張顯卡看遍天下電影!智源聯合高校開源Video-XL打破長視頻理解極限,95%準確率刷爆紀錄
新智元報道編輯:編輯部 HYZ 【新智元導讀】長視頻理解迎來新紀元!智源聯手國內多所頂尖高校,推出了超長視頻理解大模型Video-XL。僅用一張80G顯卡處理小時...