標(biāo)簽:問題

大模型測試題爆火,GPT-4和Claude3都跪了,LeCun轉(zhuǎn)發(fā):新Benchmark

克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI一項新的“大模型Benchmark”在推特上爆火,LeCun也點贊轉(zhuǎn)發(fā)了! 而且無論是GPT-4還是Claude 3,面對它都如同被奪了...
閱讀原文

智源聯(lián)合多所高校推出首個多任務(wù)長視頻評測基準(zhǔn) MLVU:GPT-4o 單選正確率不到 65%

作者 | 智源研究院 MLVU 團隊 當(dāng)前,研究社區(qū)亟需全面可靠的長視頻理解評估基準(zhǔn),以解決現(xiàn)有視頻理解評測基準(zhǔn)在視頻長度不足、類型和任務(wù)單一等方面的局限性...
閱讀原文

GPT-4o差點沒及格!首個多任務(wù)長視頻評測基準(zhǔn),它有億點難

MLVU團隊 投稿量子位 | 公眾號 QbitAI難度大升級的多任務(wù)長視頻理解評測基準(zhǔn)MLVU來了! 由智源聯(lián)合北郵、北大和浙大等多所高校推出。 究竟有多難呢?最終排名...
閱讀原文

從高考到奧林匹克競技場:大模型與人類智能的終極較量

? AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學(xué)...
閱讀原文

2024KDD挑戰(zhàn)任務(wù),GPT-4僅得40分,Meta發(fā)布最新RAG評價基準(zhǔn)

夕小瑤科技說 原創(chuàng)作者 | Axe_越眾所周知,“要想富,先修路”,經(jīng)常挖路的同學(xué)應(yīng)該知道,要想修好一條路,首先就必須搞清楚關(guān)于道路質(zhì)量的統(tǒng)一驗收標(biāo)準(zhǔn),否則...
閱讀原文

GPT-4o攻破ARC-AGI無法被挑戰(zhàn)的神話!71%準(zhǔn)確率成新SOTA

新智元報道編輯:庸庸喬楊 【新智元導(dǎo)讀】號稱不可能輕易被擊敗的AGI基準(zhǔn)ARC-AGI被GPT-4o撼動,GPT-4o以在公共測試集50%、在訓(xùn)練集71%的準(zhǔn)確率成為了新的SOTA...
閱讀原文

創(chuàng)業(yè)失敗指南:如何做垮一家創(chuàng)業(yè)公司?

成功創(chuàng)業(yè)公司的經(jīng)驗都是類似的,但失敗的創(chuàng)業(yè),卻可能是千差萬別的原因。比如決策者錯誤的判斷、過度自信或領(lǐng)導(dǎo)的自戀、甚至過于臃腫的流程…… 今天這篇文章,...
閱讀原文

大模型預(yù)測問題的計算復(fù)雜度,用不同能力的LLMs協(xié)作提高推理效率

關(guān)鍵詞:大語言模型,深度學(xué)習(xí),計算復(fù)雜度來源:集智俱樂部 作者:郭瑞東?? 大語言模型(LLMs)在人工智能領(lǐng)域取得顯著進展,但同時也帶來了推理成本方面的...
閱讀原文

中文大模型競技場第一:MiniMax海螺AI初體驗!

直播預(yù)告 | 6月20日晚7點,「智猩猩機器人新青年講座」第8講正式開講,清華大學(xué)THUNLP lab在讀博士胡錦毅將直播講解《面向多模態(tài)大模型的具身智能平臺LEGENT...
閱讀原文

聯(lián)創(chuàng)用ChatGPT寫的一行代碼讓公司損失上萬美元!網(wǎng)友:老板自己寫的,找不到人背鍋了

作者|Asim Shrestha 譯者|核子可樂 編輯|冬梅編者按:ChatGPT 在編程時的使用已經(jīng)非常廣泛。近日,一支國外技術(shù)團隊在利用 ChatGPT 生成代碼進行開發(fā)時遇...
閱讀原文

LLM最全「怪癖」首曝光!馬里蘭OpenAI等30+學(xué)者祭出75頁提示報告

新智元報道編輯:編輯部 【新智元導(dǎo)讀】大語言模型提示中,竟有不少「怪癖」:重復(fù)某些內(nèi)容,準(zhǔn)確性就大大提高;人名變匿名,準(zhǔn)確性就大大下降。最近,馬里蘭...
閱讀原文

拯救Transformer推理能力!DeepMind新研究TransNAR:給模型嵌入「算法推理大腦」

新智元報道編輯:喬楊 好困 【新智元導(dǎo)讀】DeepMind最近發(fā)表的一篇論文提出用混合架構(gòu)的方法解決Transformer模型的推理缺陷。將Transformer的NLU技能與基于GN...
閱讀原文

大模型+蒙特卡洛樹搜索,一招讓LLaMa-3 8B奧數(shù)水平直逼GPT-4

機器之心報道 編輯:陳萍、杜偉通過算法層面的創(chuàng)新,未來大語言模型做數(shù)學(xué)題的水平會不斷地提高。這幾天,17 歲中專生姜萍在 2024 阿里巴巴全球數(shù)學(xué)競賽預(yù)選...
閱讀原文

張俊林:關(guān)于Scaling Law、半合成數(shù)據(jù)、MOE及長文本

直播預(yù)告 | 6月18日上午10點,「智猩猩AI新青年講座」第240講正式開講,邀請到德州大學(xué)奧斯汀分校劉星超博士將直播講解《利用直線概率流加速Stable Diffusion...
閱讀原文

AI 初創(chuàng)企業(yè)如何做好增長?來自 PayPal 增長負責(zé)人的最佳實踐

本文編譯自播客 20VC,Harry Stebbings 與 Matt Lerner 談?wù)摿?AI 時代中初創(chuàng)企業(yè)的最佳增長方法論。 Matt Lerner 在 PayPal 帶領(lǐng)增長團隊工作了 11 年,是增...
閱讀原文
1131415161736