AIGC動態歡迎閱讀
內容摘要:
一水 發自 凹非寺量子位 | 公眾號 QbitAICVPR正在進行中,中國科研力量再次成為場內外焦點之一。
日前,AI頂會常客選手商湯科技,已經披露了今年成績單:50篇論文入選,其中還有9篇被錄用為Oral、Highlight。
這些成果,既是商湯科研和技術實力的最新證明,也透露著這家知名AI公司對于產業趨勢和技術趨勢的預判——
論文涉及自動駕駛、機器人等前沿方向。
大規模視覺語言基礎模型:InternVL商湯科技、上海AI實驗室等聯合設計了一個大規模的視覺語言基礎模型——InternVL。
首次將大規模視覺編碼器擴展到60億個參數,與LLM進行對齊,在準確性、速度和穩定性之間取得了良好平衡。
論文:https://arxiv.org/abs/2312.14238
為了有效訓練大規模視覺語言基礎模型,InternVL還引入了一種漸進式圖像-文本對齊策略。
該策略最大限度地利用網絡規模的噪聲圖像-文本數據進行對比學習,并將細粒度、高質量的數據用于生成學習。
通過驗證,相較于當前最先進的視覺基礎模型和多模態大語言模型,InternVL在廣泛的通用視覺語言任務上能夠取得更領先的結果。
另外,
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...