一個用于智能設備等的多模態原生代理框架。
SmolVLM-500M 是一個輕量級多模態模型,能夠處理圖像和文本輸入并生成文本輸出。
Phi-4-multimodal-instruct 是微軟開發的輕量級多模態基礎模型,支持文本、圖像和音頻輸入。
小型高效的視覺語言模型,讓資源有限的研究者和開發者也能輕松使用先進的視覺語言功能。
PaliGemma 2是一個強大的視覺-語言模型,支持多種視覺語言任務。
PaliGemma 2是一款強大的視覺-語言模型,支持多種語言的圖像和文本處理任務。
多模態12B參數模型,結合視覺編碼器處理圖像和文本。
先進的多模態理解模型,融合視覺與語言能力。
先進的大型混合專家視覺語言模型
多模態大型語言模型,提升視覺和語言的綜合理解能力
多模態大型語言模型,提升視覺與語言的交互能力。
OpenI AI助手在線工具硅基流動豆包Trae扣子Coze即夢繪蛙