o3智商高達(dá)157?每13333人中才有一個(gè)這么高,網(wǎng)友:編碼分?jǐn)?shù)無意義
至于可靠性,有待后續(xù)驗(yàn)證。

原標(biāo)題:o3智商高達(dá)157?每13333人中才有一個(gè)這么高,網(wǎng)友:編碼分?jǐn)?shù)無意義
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):2387字
OpenAI o3智商引發(fā)熱議:157的IQ真實(shí)性存疑
近日,Reddit上一則熱帖宣稱OpenAI的o3模型智商高達(dá)157,引發(fā)廣泛關(guān)注。該帖聲稱,根據(jù)Codeforces編碼評級粗略估計(jì),o3的智商在人類中僅有0.0075%能夠達(dá)到,遠(yuǎn)超GPT-4o(115)、o1 preview(123)、o1(135)、o1 pro(139)和o3 mini(141)。
o3智商評估方法的爭議
該智商評估方法基于Codeforces編碼評級,假設(shè)參與者為前15%的競爭程序員。然而,這一方法受到了廣泛質(zhì)疑。許多網(wǎng)友指出,編碼能力并不能完全代表智商,尤其對于LLM而言,它們對互聯(lián)網(wǎng)上公開的代碼具有完美的記憶能力,這使得基于編碼能力的智商評估缺乏說服力。 此外,智商測試本身就是為評估人類智力而設(shè)計(jì)的,直接套用在AI模型上并不合適。
AI模型能力進(jìn)步顯著
盡管o3的智商評估存在爭議,但文章也提到AI大模型能力的顯著進(jìn)步。例如,GPT-4o在AIME數(shù)學(xué)競賽中的成績在七個(gè)月內(nèi)從13.4分躍升至96.7分,展現(xiàn)了AI模型學(xué)習(xí)能力的飛速提升。o1在挪威門薩智商測試中取得了133分的成績,與Reddit帖子中估計(jì)的135分較為接近,一定程度上增加了對o3智商評估可靠性的懷疑。
網(wǎng)友評論及觀點(diǎn)
網(wǎng)友對o3智商高達(dá)157的結(jié)論褒貶不一。一些網(wǎng)友認(rèn)為該數(shù)據(jù)荒謬,編碼能力不能等同于智商;另一些網(wǎng)友則認(rèn)為這是一種基于相關(guān)性的轉(zhuǎn)換,但相關(guān)性較弱,且轉(zhuǎn)換結(jié)果在機(jī)器智能上的效果不明確。 普遍觀點(diǎn)認(rèn)為,將單一指標(biāo)(編碼能力)推斷為廣義智能是不合理的,并且該評估方法并未真正使用智商測試。
結(jié)論:炒作嫌疑
總而言之,目前關(guān)于OpenAI o3智商高達(dá)157的說法缺乏足夠的證據(jù)支持,其評估方法存在嚴(yán)重缺陷。 雖然AI大模型的能力確實(shí)在快速進(jìn)步,但將o3的智商夸大至如此程度,很可能只是一場炒作。 o3正式發(fā)布后的實(shí)際測試結(jié)果將是檢驗(yàn)其真實(shí)能力的關(guān)鍵。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號