AIGC動態歡迎閱讀
原標題:開源+共訓,雙輪驅動基礎大模型創新普惠 |浪潮信息吳韶華@MEET2024
關鍵字:模型,數據,結構,能力,里面
文章來源:量子位
內容字數:9353字
內容摘要:
編輯部 整理自 MEET2024量子位 | 公眾號 QbitAI相比GPT-3,GPT-4(包括GPT-3.5)的能力有了非常巨大的進步。
這背后其實得益于一個很重要的過程引入:微調。
在給定模型結構的情況下(即Transformer結構),隨著模型參數量增大、投入算力規模和數據規模越大,模型的精度往往會更高。
但此類擴展率的研究是基于預訓練的范式下開展。隨即,訓練模式的變化讓我們也不得不重新思考:
在“預訓練+微調”的范式下,尤其在微調的重要性越來越高的情況下,如何改進算法、數據以適應預訓練與微調不同階段的特性?
在MEET 2024智能未來大會現場,浪潮信息AI軟件研發總監吳韶華博士便拋出了這樣一個問題。
他介紹,浪潮信息的“源1.0”大模型和“源2.0”大模型正是基于以上角度出發,從算法、數據、計算三個層面入手打造而成,最終在代碼、數據邏輯等方面都取得了很出色的表現。
那么,具體都有哪些實踐和經驗?
為了完整體現吳韶華博士對GPT-4時代大模型訓練模式的見解和思考,量子位在不改變原意的基礎上,對他的演講內容進行了編輯整理。
關于MEET 智能未來大會:MEET大會是由量子位主辦的
原文鏈接:開源+共訓,雙輪驅動基礎大模型創新普惠 |浪潮信息吳韶華@MEET2024
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...