10 大中文醫(yī)學(xué)數(shù)據(jù)集匯總:涵蓋神農(nóng)中醫(yī)藥、中醫(yī)藥古籍、醫(yī)學(xué)推理、醫(yī)學(xué)問答……
內(nèi)含數(shù)據(jù)集下載地址
原標(biāo)題:10 大中文醫(yī)學(xué)數(shù)據(jù)集匯總:涵蓋神農(nóng)中醫(yī)藥、中醫(yī)藥古籍、醫(yī)學(xué)推理、醫(yī)學(xué)問答……
文章來源:HyperAI超神經(jīng)
內(nèi)容字?jǐn)?shù):4015字
HyperAI超神經(jīng)推薦:10個(gè)中文醫(yī)學(xué)數(shù)據(jù)集助力醫(yī)療AI發(fā)展
本文介紹了HyperAI超神經(jīng)推薦的10個(gè)中文醫(yī)學(xué)數(shù)據(jù)集,這些數(shù)據(jù)集涵蓋了中醫(yī)藥、醫(yī)學(xué)問答、醫(yī)學(xué)推理等多個(gè)領(lǐng)域,旨在為醫(yī)療人工智能研究提供高質(zhì)量的數(shù)據(jù)資源。文章由李姝撰寫,李寶珠編輯,轉(zhuǎn)載需獲得授權(quán)并注明來源HyperAI超神經(jīng)。
1. 數(shù)據(jù)集概述
醫(yī)療人工智能的快速發(fā)展依賴于高質(zhì)量的數(shù)據(jù)集。這些數(shù)據(jù)集應(yīng)用于疾病診斷、藥物研發(fā)和個(gè)性化醫(yī)療等領(lǐng)域,推動機(jī)器視覺、大模型等技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用。本文列出的數(shù)據(jù)集形式多樣,涵蓋不同維度和領(lǐng)域的數(shù)據(jù)資源,例如問答數(shù)據(jù)集、中醫(yī)藥數(shù)據(jù)集、醫(yī)學(xué)對話數(shù)據(jù)集等,為研究人員提供豐富的選擇。
2. 十個(gè)中文醫(yī)學(xué)數(shù)據(jù)集詳解
首個(gè)中文醫(yī)療??茊柎鹜评頂?shù)據(jù)集
該數(shù)據(jù)集由螞蟻集團(tuán)和上海交通大學(xué)醫(yī)學(xué)院附屬仁濟(jì)醫(yī)院合作創(chuàng)建,專注于泌尿外科,采用Q-context-A格式,數(shù)據(jù)由專業(yè)醫(yī)生編寫,保護(hù)患者隱私。預(yù)估大?。?.34 MB。
中文醫(yī)療問答數(shù)據(jù)集
這是一個(gè)包含6個(gè)不同醫(yī)療科室(男科、內(nèi)科、婦產(chǎn)科、腫瘤科、兒科、外科)的問答數(shù)據(jù)集,總計(jì)792,099條數(shù)據(jù),每個(gè)科室的數(shù)據(jù)以CSV文件形式存儲。預(yù)估大小:279.64 MB。
醫(yī)學(xué)對話數(shù)據(jù)集
該數(shù)據(jù)集包含256,916條患者與醫(yī)生之間的對話,用于訓(xùn)練醫(yī)學(xué)機(jī)器人。預(yù)估大?。?18.35 MB。
神農(nóng)中醫(yī)藥數(shù)據(jù)集
這是一個(gè)專門為中醫(yī)藥領(lǐng)域設(shè)計(jì)的大規(guī)模語言模型訓(xùn)練和評估數(shù)據(jù)集,包含超過11萬個(gè)指令數(shù)據(jù),用于提升模型在中醫(yī)藥相關(guān)問題的回答能力和輔助中醫(yī)診斷。預(yù)估大?。?8.98 MB。
中醫(yī)藥古籍?dāng)?shù)據(jù)集
該數(shù)據(jù)集包含約700項(xiàng)中醫(yī)藥古籍文本,涵蓋從先秦至清末民國的歷代醫(yī)藥典籍,內(nèi)容包括醫(yī)學(xué)理論、方劑學(xué)、藥物學(xué)等。預(yù)估大?。?0.49 MB。
中醫(yī)診斷數(shù)據(jù)集
這是一個(gè)高質(zhì)量的中醫(yī)數(shù)據(jù)集,包含約1GB的中醫(yī)臨床案例、名家典籍、醫(yī)學(xué)百科等內(nèi)容,適用于預(yù)訓(xùn)練或繼續(xù)預(yù)訓(xùn)練用途。預(yù)估大小:341.69 MB。
中醫(yī)對話數(shù)據(jù)集
這是一個(gè)用于開發(fā)和訓(xùn)練醫(yī)療領(lǐng)域語言模型的綜合數(shù)據(jù)集,包含百科知識、教材文本、醫(yī)患對話和評價(jià)數(shù)據(jù)。預(yù)估大小:737.32 MB。
醫(yī)學(xué)推理數(shù)據(jù)集
該數(shù)據(jù)集由香港中文大學(xué)和深圳市大數(shù)據(jù)研究院發(fā)布,用于微調(diào)HuatuoGPT-o1醫(yī)學(xué)大語言模型,提升其在復(fù)雜醫(yī)學(xué)推理任務(wù)中的表現(xiàn)。
多語言醫(yī)學(xué)能力測試基準(zhǔn)數(shù)據(jù)集
該數(shù)據(jù)集由上海交通大學(xué)人工智能學(xué)院開發(fā),用于評估醫(yī)學(xué)領(lǐng)域多語言模型,涵蓋6種語言和21種醫(yī)學(xué)子領(lǐng)域。預(yù)估大小:20.69 MB。
MMedC大規(guī)模多語言醫(yī)療語料庫
該數(shù)據(jù)集由上海交通大學(xué)人工智能學(xué)院構(gòu)建,包含約255億個(gè)tokens,涵蓋英語、中文、日語、法語、俄語和西班牙語等6種語言。預(yù)估大?。?1.05 GB。
3. 總結(jié)
HyperAI超神經(jīng)提供的這10個(gè)中文醫(yī)學(xué)數(shù)據(jù)集,為醫(yī)療人工智能研究提供了寶貴的數(shù)據(jù)資源。 讀者可以通過文章中提供的鏈接訪問和下載這些數(shù)據(jù)集,并進(jìn)一步探索其在各自研究領(lǐng)域的應(yīng)用。
聯(lián)系作者
文章來源:HyperAI超神經(jīng)
作者微信:
作者簡介:解構(gòu)技術(shù)先進(jìn)性與普適性,報(bào)道更前沿的 AIforScience 案例