一個基于深度學習的圖像和視頻描述模型。
Aya Vision 32B 是一個支持多語言的視覺語言模型,適用于OCR、圖像描述、視覺推理等多種用途。
SmolVLM-500M 是一個輕量級多模態模型,能夠處理圖像和文本輸入并生成文本輸出。
8億參數的多語言視覺語言模型,支持OCR、圖像描述、視覺推理等功能
小型高效的視覺語言模型,讓資源有限的研究者和開發者也能輕松使用先進的視覺語言功能。
PaliGemma 2是一個強大的視覺-語言模型,支持多種視覺語言任務。
PaliGemma 2是一款強大的視覺-語言模型,支持多種語言的圖像和文本處理任務。
自動化為網站圖片生成描述性文本
多模態大型語言模型,提升視覺和語言的綜合理解能力
多模態大型語言模型,提升視覺與語言的交互能力。
OpenI AI助手在線工具硅基流動豆包Trae扣子Coze即夢繪蛙