標簽:視覺語言模型

WPS接入DeepSeek,秒變辦公神器!

WPS 大家經常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓WPS秒變辦公神器。 DeepSeek API申請地址:http:/...
閱讀原文

AI賺錢副業~AI生成影視解說,半個月漲粉變現3.5W+!

這兩年大家都在感嘆生活不易,然而我想說的是,機會還是有的,但問題不在于有沒有,而在于你是否能夠認準機會,然后抓住它。 接觸過很多咨詢項目的人,發現...

PaddleOCR-VL

PaddleOCR-VL是百度飛槳團隊開源的多模態文檔解析模型,參數量僅0.9B,專為低算力設備優化。在國際權威評測OmnidocBench V1.5中以92.6分登頂全球第一,超越GP...
閱讀原文

LLaVA-OneVision-1.5

LLaVA-OneVision-1.5 是開源的多模態模型,通過高效訓練和高質量數據實現高性能、低成本和強復現性。采用自研的 RICE-ViT 作為視覺編碼器,結合 2D 旋轉位置...
閱讀原文

InternVLA-A1

InternVLA-A1 是上海人工智能實驗室和國家地方共建人形機器人創新中心聯合發布的具身操作大模型。具備理解、想象、執行一體化的能力,能精準地完成任務。模型...
閱讀原文

MiMo-VL

MiMo-VL 是小米開源的多模態大模型,由視覺編碼器、跨模態投影層和語言模型構成,視覺編碼器基于Qwen2.5-ViT,語言模型是小米自研的MiMo-7B。
閱讀原文

VLM-R1

VLM-R1 是 Om AI Lab 推出的基于強化學習技術的視覺語言模型,通過自然語言指令精確定位圖像中的目標物體,如根據描述“圖中紅色的杯子”找到對應的圖像區域。...
閱讀原文

地平線在端到端/VLM/VLA的探索與思考|GADS演講預告

第四屆全球自動駕駛峰會1月14日在北京舉辦~
閱讀原文