GPT-3.5 (text-davinci-003)、ChatGPT、Claude 和 Bing Chat 等指令跟隨模型變得越來越強大。許多用戶現在定期與這些模型交互,甚至將它們用于工作。然而,盡管它們得到廣泛部署,指令遵循模型仍然存在許多缺陷:它們會產生虛假信息、傳播社會刻板印象并產生有毒語言。
為了在解決這些緊迫問題方面取得最大進展,學術界的參與很重要。不幸的是,在學術界對指令遵循模型進行研究一直很困難,因為沒有開源模型在功能上接近閉源模型,例如 OpenAI 的 text-davinci-003。
我們正在發布我們關于指令跟隨語言模型的發現,該模型被稱為Alpaca ,它是從 Meta 的LLaMA?7B 模型中微調而來的。我們使用 text-davinci-003在以自我指導方式生成的 52K 指令跟隨演示上訓練羊駝模型。Alpaca 表現出許多類似于 OpenAI 的 text-davinci-003 的行為,但也出奇地小且易于復制/便宜。
我們正在發布我們的訓練配方和數據,并打算在未來發布模型權重。我們還舉辦了一個互動演示,讓研究界更好地了解羊駝的行為。交互可以暴露意想不到的能力和失敗,這將指導我們未來對這些模型的評估。我們還鼓勵用戶在我們的網絡演示中報告任何相關行為,以便我們更好地理解和減輕這些行為。由于任何版本都有風險,我們稍后將在本博文中討論我們對這個公開版本的思考過程。
我們強調 Alpaca僅用于學術研究,禁止任何商業用途。這個決定有3個因素:第一,Alpaca基于LLaMA,有非商業許可,所以我們必然繼承這個決定。其次,指令數據基于 OpenAI 的 text-davinci-003,其使用條款禁止開發與 OpenAI 競爭的模型。最后,我們沒有設計足夠的安全措施,所以 Alpaca 還沒有準備好部署到一般用途。
官網地址:https://crfm.stanford.edu/2023/03/13/alpaca.html
模型入口:https://crfm.stanford.edu/alpaca
github地址:https://github.com/tatsu-lab/stanford_alpaca
數據評估
本站OpenI提供的Alpaca羊駝(斯坦福模型)都來源于網絡,不保證外部鏈接的準確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實際控制,在2023年 5月 13日 下午4:39收錄時,該網頁上的內容,都屬于合規合法,后期網頁的內容如出現違規,可以直接聯系網站管理員進行刪除,OpenI不承擔任何責任。