<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DINO-X:通用視覺(jué)大模型助力智能識(shí)別與分析的新時(shí)代

        AI工具8個(gè)月前發(fā)布 AI工具集
        770 0 0

        DINO-X是一款由IDEA研究院開(kāi)發(fā)的先進(jìn)視覺(jué)大模型,具有開(kāi)放世界對(duì)象檢測(cè)與理解的強(qiáng)大能力。該模型支持文本、視覺(jué)及定制提示,能夠自動(dòng)識(shí)別圖像中的各種對(duì)象,無(wú)需用戶輸入。DINO-X基于超過(guò)1億樣本的Grounding-100M數(shù)據(jù)集,在COCO、LVIS-minival及LVIS-val等多個(gè)基準(zhǔn)測(cè)試中創(chuàng)造了新的性能記錄。該產(chǎn)品分為兩個(gè)版本:DINO-X Pro,專注于卓越的感知能力;以及DINO-X Edge,優(yōu)化推理速度,適合邊緣計(jì)算應(yīng)用。DINO-X在長(zhǎng)尾物體識(shí)別方面表現(xiàn)尤為出色,廣泛適用于自動(dòng)駕駛、智能安防等領(lǐng)域,為行業(yè)的智能化升級(jí)注入了新的動(dòng)力。

        DINO-X是什么

        DINO-X是IDEA研究院推出的通用視覺(jué)大模型,具備開(kāi)放世界對(duì)象檢測(cè)與理解能力。支持文本、視覺(jué)和定制提示,能識(shí)別圖像中的任何對(duì)象而無(wú)需用戶提示。基于超過(guò)1億樣本的Grounding-100M數(shù)據(jù)集,DINO-X在COCO、LVIS-minival和LVIS-val基準(zhǔn)測(cè)試中刷新性能記錄。模型包含DINO-X Pro和DINO-X Edge兩個(gè)版本,前者提供強(qiáng)大的感知能力,后者優(yōu)化推理速度,適合邊緣部署。DINO-X在長(zhǎng)尾物體識(shí)別上表現(xiàn)出色,能廣泛應(yīng)用于自動(dòng)駕駛、智能安防等領(lǐng)域,為產(chǎn)業(yè)升級(jí)帶來(lái)新動(dòng)力。

        DINO-X:通用視覺(jué)大模型助力智能識(shí)別與分析的新時(shí)代

        DINO-X的主要功能

        • 開(kāi)放世界對(duì)象檢測(cè)與分割:能夠檢測(cè)和分割圖像中的多種對(duì)象,包括長(zhǎng)尾類別中不常見(jiàn)的物體。
        • 短語(yǔ)定位:根據(jù)用戶提供的文本短語(yǔ),精確定位圖像中的相應(yīng)對(duì)象。
        • 視覺(jué)提示計(jì)數(shù):利用視覺(jué)提示,如繪制邊界框或點(diǎn),來(lái)統(tǒng)計(jì)特定對(duì)象的數(shù)量。
        • 姿態(tài)估計(jì):預(yù)測(cè)圖像中人物或特定類別的關(guān)鍵點(diǎn),例如人體或手部的姿態(tài)。
        • 無(wú)提示對(duì)象檢測(cè)與識(shí)別:支持無(wú)需任何提示即可檢測(cè)到圖像中的各種對(duì)象。
        • 密集區(qū)域字幕:為圖像中的特定區(qū)域生成詳細(xì)的描述性字幕。
        • 基于對(duì)象的問(wèn)答:能回答關(guān)于圖像中特定對(duì)象的提問(wèn)。

        DINO-X的技術(shù)原理

        • Transformer編碼器-解碼器架構(gòu):采用Transformer架構(gòu),利用編碼器提取圖像特征,解碼器則負(fù)責(zé)對(duì)象檢測(cè)與理解。
        • 多模態(tài)預(yù)訓(xùn)練:在大規(guī)模Grounding-100M數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,使DINO-X學(xué)習(xí)到豐富的視覺(jué)與語(yǔ)言特征,增強(qiáng)其開(kāi)放詞匯的檢測(cè)能力。
        • 提示擴(kuò)展:支持文本提示、視覺(jué)提示及定制提示,適應(yīng)更廣泛的檢測(cè)場(chǎng)景。
        • 多感知頭集成:集成多種感知頭,如邊界框頭、分割頭、關(guān)鍵點(diǎn)頭和語(yǔ)言頭,以支持多樣化的感知與理解任務(wù)。
        • 兩階段訓(xùn)練策略
          • 第一階段:聯(lián)合訓(xùn)練文本提示檢測(cè)、視覺(jué)提示檢測(cè)和對(duì)象分割任務(wù)。
          • 第二階段:凍結(jié)DINO-X主干,單獨(dú)訓(xùn)練關(guān)鍵點(diǎn)頭和語(yǔ)言頭,擴(kuò)展模型的細(xì)粒度感知與理解能力。
        • 知識(shí)蒸餾與FP16推理優(yōu)化:通過(guò)知識(shí)蒸餾技術(shù)從Pro模型提取知識(shí),并利用FP16量化技術(shù)提升推理速度。
        • 語(yǔ)言頭設(shè)計(jì):DINO-X的語(yǔ)言頭借助凍結(jié)的DINO-X提取對(duì)象標(biāo)簽,并與任務(wù)標(biāo)簽結(jié)合,通過(guò)自回歸方式生成響應(yīng)輸出。

        DINO-X的項(xiàng)目地址

        DINO-X的應(yīng)用場(chǎng)景

        • 自動(dòng)駕駛:在自動(dòng)駕駛汽車中實(shí)時(shí)識(shí)別與理解道路環(huán)境,包括行人、車輛和交通標(biāo)志,從而提升安全性與反應(yīng)能力。
        • 智能安防:在監(jiān)控系統(tǒng)中檢測(cè)與識(shí)別可疑行為、入侵者及其他安全威脅,提高監(jiān)控的智能化水平。
        • 工業(yè)檢測(cè):用于制造業(yè)中的質(zhì)量控制,檢測(cè)產(chǎn)品缺陷,確保生產(chǎn)線的高效運(yùn)轉(zhuǎn)與產(chǎn)品質(zhì)量。
        • 機(jī)器人視覺(jué):集成入服務(wù)機(jī)器人與工業(yè)機(jī)器人中,幫助其更好地理解周圍環(huán)境,增強(qiáng)交互與操作能力。
        • 輔助視障人士:應(yīng)用于助盲設(shè)備中,幫助視障人士更好地理解與導(dǎo)航其周圍環(huán)境。
        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 免费观看黄网站在线播放| 伊人免费在线观看高清版| 免费一本色道久久一区| 亚洲一级片在线播放| 无码成A毛片免费| 亚洲成在人天堂在线| 久久免费区一区二区三波多野| 亚洲AV无码久久精品蜜桃| 国产免费区在线观看十分钟| 亚洲精品视频久久久| g0g0人体全免费高清大胆视频| 国产性爱在线观看亚洲黄色一级片 | 日韩亚洲人成在线综合| 精品久久免费视频| 国产精品亚洲综合| 亚洲国产精品13p| 中文字幕无码一区二区免费| 亚洲国产精品无码AAA片| 青青草无码免费一二三区| 亚洲精品第五页中文字幕| 24小时日本电影免费看| 亚洲 日韩 色 图网站| 国产免费变态视频网址网站| 巨胸狂喷奶水视频www网站免费| 亚洲va无码专区国产乱码| 精品无码人妻一区二区免费蜜桃| 亚洲福利视频一区二区三区| 国产啪精品视频网免费| 亚洲欧美aⅴ在线资源| 亚洲国产香蕉人人爽成AV片久久 | 国产精品免费高清在线观看 | 香蕉视频免费在线| 精品亚洲一区二区三区在线观看 | 日本免费网站观看| 中文字幕不卡高清免费| 在线电影你懂的亚洲| 大学生a级毛片免费观看| 国产精品免费久久久久久久久| 亚洲av伊人久久综合密臀性色| 免费观看的毛片手机视频| aa在线免费观看|