標(biāo)簽：問題

大模型測試題爆火，GPT-4和Claude3都跪了，LeCun轉(zhuǎn)發(fā)：新Benchmark

克雷西發(fā)自凹非寺量子位 | 公眾號 QbitAI一項新的“大模型Benchmark”在推特上爆火，LeCun也點贊轉(zhuǎn)發(fā)了！而且無論是GPT-4還是Claude 3，面對它都如同被奪了...

閱讀原文

AIGC動態(tài)

1年前 (2024)

智源聯(lián)合多所高校推出首個多任務(wù)長視頻評測基準(zhǔn) MLVU：GPT-4o 單選正確率不到 65%

作者 | 智源研究院 MLVU 團隊當(dāng)前，研究社區(qū)亟需全面可靠的長視頻理解評估基準(zhǔn)，以解決現(xiàn)有視頻理解評測基準(zhǔn)在視頻長度不足、類型和任務(wù)單一等方面的局限性...

閱讀原文

AIGC動態(tài)

1年前 (2024)

GPT-4o差點沒及格！首個多任務(wù)長視頻評測基準(zhǔn)，它有億點難

MLVU團隊投稿量子位 | 公眾號 QbitAI難度大升級的多任務(wù)長視頻理解評測基準(zhǔn)MLVU來了！由智源聯(lián)合北郵、北大和浙大等多所高校推出。究竟有多難呢？最終排名...

閱讀原文

AIGC動態(tài)

1年前 (2024)

從高考到奧林匹克競技場：大模型與人類智能的終極較量

? AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機器之心AIxiv專欄接收報道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級實驗室，有效促進了學(xué)...

閱讀原文

AIGC動態(tài)

1年前 (2024)

2024KDD挑戰(zhàn)任務(wù)，GPT-4僅得40分，Meta發(fā)布最新RAG評價基準(zhǔn)

夕小瑤科技說原創(chuàng)作者 | Axe_越眾所周知，“要想富，先修路”，經(jīng)常挖路的同學(xué)應(yīng)該知道，要想修好一條路，首先就必須搞清楚關(guān)于道路質(zhì)量的統(tǒng)一驗收標(biāo)準(zhǔn)，否則...

閱讀原文

AIGC動態(tài)

1年前 (2024)

GPT-4o攻破ARC-AGI無法被挑戰(zhàn)的神話！71%準(zhǔn)確率成新SOTA

新智元報道編輯：庸庸喬楊【新智元導(dǎo)讀】號稱不可能輕易被擊敗的AGI基準(zhǔn)ARC-AGI被GPT-4o撼動，GPT-4o以在公共測試集50%、在訓(xùn)練集71%的準(zhǔn)確率成為了新的SOTA...

閱讀原文

AIGC動態(tài)

1年前 (2024)

創(chuàng)業(yè)失敗指南：如何做垮一家創(chuàng)業(yè)公司？

成功創(chuàng)業(yè)公司的經(jīng)驗都是類似的，但失敗的創(chuàng)業(yè)，卻可能是千差萬別的原因。比如決策者錯誤的判斷、過度自信或領(lǐng)導(dǎo)的自戀、甚至過于臃腫的流程…… 今天這篇文章，...

閱讀原文

AIGC動態(tài)

1年前 (2024)

大模型預(yù)測問題的計算復(fù)雜度，用不同能力的LLMs協(xié)作提高推理效率

關(guān)鍵詞：大語言模型，深度學(xué)習(xí)，計算復(fù)雜度來源：集智俱樂部作者：郭瑞東?? 大語言模型（LLMs）在人工智能領(lǐng)域取得顯著進展，但同時也帶來了推理成本方面的...

閱讀原文

AIGC動態(tài)

1年前 (2024)

中文大模型競技場第一：MiniMax海螺AI初體驗！

直播預(yù)告 | 6月20日晚7點，「智猩猩機器人新青年講座」第8講正式開講，清華大學(xué)THUNLP lab在讀博士胡錦毅將直播講解《面向多模態(tài)大模型的具身智能平臺LEGENT...

閱讀原文

AIGC動態(tài)

1年前 (2024)

聯(lián)創(chuàng)用ChatGPT寫的一行代碼讓公司損失上萬美元！網(wǎng)友：老板自己寫的，找不到人背鍋了

作者｜Asim Shrestha 譯者｜核子可樂編輯｜冬梅編者按：ChatGPT 在編程時的使用已經(jīng)非常廣泛。近日，一支國外技術(shù)團隊在利用 ChatGPT 生成代碼進行開發(fā)時遇...

閱讀原文

AIGC動態(tài)

1年前 (2024)

LLM最全「怪癖」首曝光！馬里蘭OpenAI等30+學(xué)者祭出75頁提示報告

新智元報道編輯：編輯部【新智元導(dǎo)讀】大語言模型提示中，竟有不少「怪癖」：重復(fù)某些內(nèi)容，準(zhǔn)確性就大大提高；人名變匿名，準(zhǔn)確性就大大下降。最近，馬里蘭...

閱讀原文

AIGC動態(tài)

1年前 (2024)

拯救Transformer推理能力！DeepMind新研究TransNAR：給模型嵌入「算法推理大腦」

新智元報道編輯：喬楊好困【新智元導(dǎo)讀】DeepMind最近發(fā)表的一篇論文提出用混合架構(gòu)的方法解決Transformer模型的推理缺陷。將Transformer的NLU技能與基于GN...

閱讀原文

AIGC動態(tài)

1年前 (2024)

大模型+蒙特卡洛樹搜索，一招讓LLaMa-3 8B奧數(shù)水平直逼GPT-4

機器之心報道編輯：陳萍、杜偉通過算法層面的創(chuàng)新，未來大語言模型做數(shù)學(xué)題的水平會不斷地提高。這幾天，17 歲中專生姜萍在 2024 阿里巴巴全球數(shù)學(xué)競賽預(yù)選...

閱讀原文

AIGC動態(tài)

1年前 (2024)

張俊林：關(guān)于Scaling Law、半合成數(shù)據(jù)、MOE及長文本

直播預(yù)告 | 6月18日上午10點，「智猩猩AI新青年講座」第240講正式開講，邀請到德州大學(xué)奧斯汀分校劉星超博士將直播講解《利用直線概率流加速Stable Diffusion...

閱讀原文

AIGC動態(tài)

1年前 (2024)

AI 初創(chuàng)企業(yè)如何做好增長？來自 PayPal 增長負責(zé)人的最佳實踐

本文編譯自播客 20VC，Harry Stebbings 與 Matt Lerner 談?wù)摿?AI 時代中初創(chuàng)企業(yè)的最佳增長方法論。 Matt Lerner 在 PayPal 帶領(lǐng)增長團隊工作了 11 年，是增...

閱讀原文

AIGC動態(tài)

1年前 (2024)

1…13 141516 17…36