SEED-Story是由騰訊與香港科技大學、香港中文大學共同研發的一款創新性多模態故事生成模型。該模型基于多模態大語言模型(MLLM),能夠同時預測文本和視覺token,并通過視覺de-tokenizer生成風格一致的圖像。憑借引入的多模態注意力機制,SEED-Story支持生成長達25個序列的連貫敘事。
SEED-Story是什么
SEED-Story是騰訊與香港科技大學、香港中文大學合作開發的一款多模態故事生成模型。它利用多模態大語言模型(MLLM)來預測文本與視覺token,并通過視覺de-tokenizer生成具有一致風格的圖像。SEED-Story采用多模態注意力機制,能夠生成長達25個序列的連貫故事。此外,SEED-Story還提供了名為StoryStream的大規模高分辨率數據集,用于模型的訓練和評估。
SEED-Story的主要功能
- 多模態故事生成:SEED-Story能夠根據用戶提供的起始圖像和文本,生成包含連貫敘述和風格一致圖像的長篇故事。
- 多模態注意力匯聚機制:引入了多模態注意力匯聚機制,使得模型能夠高效自回歸地生成故事,支持生成長達25個序列的內容。
- 大規模數據集:發布了名為StoryStream的高分辨率數據集,用于訓練模型并從多方面評估多模態故事生成的效果。
- 故事指令調整:在故事生成過程中,SEED-Story通過指令調整對模型進行微調,以預測故事的下一個圖像和文本。
- 可視化和交互:提供可視化比較,展示生成的圖像在質量和一致性上優于其他基線模型。
SEED-Story的技術原理
- 多模態大語言模型(MLLM):該技術利用大型語言模型來理解、生成和預測文本及視覺元素,能夠處理并生成文本數據,同時理解并生成視覺內容。
- 文本和視覺標記預測:SEED-Story能夠準確預測文本標記(文本中的元素或單詞)和視覺標記(圖像中的元素)。
- 視覺de-tokenizer:將語言模型生成的文本和視覺標記轉化為圖像,通過視覺de-tokenizer生成風格一致的高質量圖像。
- 多模態注意力機制:引入該機制,使模型在生成故事時能夠關注文本與圖像之間的相互關系,從而更有效地處理長序列生成任務。
- 自回歸生成:模型采用自回歸方式生成故事,即每個新生成的標記依賴于之前生成的所有標記,確保故事的連貫性。
- 長序列生成能力:通過多模態注意力機制,SEED-Story能夠生成比訓練序列更長的故事。
- StoryStream數據集:提供一個高分辨率大規模數據集,用于訓練模型并評估多模態故事生成任務,數據集包含視覺吸引的高分辨率圖像及詳細敘述文本。
- 訓練流程:包括預訓練去標記器以重建圖像、采樣交錯圖像文本序列進行訓練,并利用MLLM的回歸圖像特征來優化生成圖像。
SEED-Story的項目地址
- GitHub倉庫:https://github.com/TencentARC/SEED-Story
- HuggingFace模型庫:https://huggingface.co/TencentARC/SEED-Story
- arXiv技術論文:https://arxiv.org/abs/2407.08683
SEED-Story的應用場景
- 創意寫作輔助:為作家和內容創作者提供靈感,幫助他們生成故事大綱、角色描述和情節發展。
- 教育與學習:作為教學工具,幫助學生理解故事敘述結構,提高他們的寫作和創意思維能力。
- 娛樂與游戲開發:在視頻游戲中生成動態故事線和角色背景,增強沉浸式體驗。
- 廣告與營銷:快速生成引人注目的廣告故事或營銷材料,提升廣告內容的吸引力和個性化。
- 電影與動畫制作:輔助劇本創作,生成角色對話和場景描述,加速制作流程。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...