技術(shù)
導(dǎo)讀:未來的IT,一定是“老、舊、新”三個(gè)IT的平行組合和使用。當(dāng)然這一段不是我的總結(jié),只是“拿來主義”。時(shí)光倒序,先從智能技術(shù)著手,從解決方案的角度分享人工智能在醫(yī)療行業(yè)的應(yīng)用。
【編者按】未來的IT,一定是“老、舊、新”三個(gè)IT的平行組合和使用。當(dāng)然這一段不是我的總結(jié),只是“拿來主義”。時(shí)光倒序,先從智能技術(shù)著手,從解決方案的角度分享人工智能在醫(yī)療行業(yè)的應(yīng)用。
工業(yè)技術(shù)是“老”IT(IndustrialTechnology),信息技術(shù)是“舊”IT,智能技術(shù)是“新”IT(IntelligentTechnology)。工業(yè)技術(shù)解決了人類發(fā)展資源不對(duì)稱的問題,互聯(lián)網(wǎng)信息技術(shù)很快會(huì)解決信息不對(duì)稱的問題,智能技術(shù)將面臨解決人類智力不對(duì)稱問題的艱巨任務(wù)。
未來的IT,一定是“老、舊、新”三個(gè)IT的平行組合和使用。當(dāng)然這一段不是我的總結(jié),只是“拿來主義”。時(shí)光倒序,先從智能技術(shù)著手,從解決方案的角度分享人工智能在醫(yī)療行業(yè)的應(yīng)用。
春秋戰(zhàn)國(guó),七雄爭(zhēng)霸,那時(shí)候就出現(xiàn)了偉大的“數(shù)據(jù)治理專家”秦始皇,將國(guó)家(“數(shù)據(jù)”)治理的三要素:組織架構(gòu)、制度流程和技術(shù)支撐大集成,更將標(biāo)準(zhǔn)化發(fā)揮到極致。
這兩年,醫(yī)療人工智能更是發(fā)展迅速,產(chǎn)業(yè)格局亦風(fēng)起云涌?;ヂ?lián)網(wǎng)醫(yī)療健康產(chǎn)業(yè)聯(lián)盟發(fā)布的《醫(yī)療人工智能技術(shù)與應(yīng)用白皮書(2018年)》對(duì)人工智能在醫(yī)療行業(yè)的寶貴價(jià)值、細(xì)分領(lǐng)域的應(yīng)用、面臨的問題與挑戰(zhàn)進(jìn)行了概括性的綜述。
在中關(guān)村,程序猿們把人工智能叫“養(yǎng)狗”(阿爾法狗),“養(yǎng)狗”是要有“狗糧”的,沒有“狗糧”吃的“阿爾法狗”肯定長(zhǎng)不大;反之,沒有消費(fèi)者,“阿爾法狗”的“狗糧”也沒有任何存在的意義。
這里的“狗糧”說的是經(jīng)過數(shù)據(jù)治理過后的大數(shù)據(jù),這樣才可以把面粉加工(AI/DG)成面皮(數(shù)據(jù)開放平臺(tái)),做成包子(專病研究)、餛飩(臨床輔助決策)、餃子(真實(shí)世界研究)等。如圖1所示:一望無際的麥田,好比臨床醫(yī)生(各自的一畝三分地)寫的病歷(種的麥子)各不相同(良莠不齊)。結(jié)構(gòu)化電子病歷系統(tǒng)的普及,對(duì)臨床質(zhì)控、臨床科研發(fā)揮了巨大作用,而模板化的病歷不僅限制了醫(yī)生的思維,且歸檔后的病歷千篇一律,生生把“大數(shù)據(jù)”變成了“數(shù)據(jù)大”。更為重要的是,很多醫(yī)學(xué)信息因?yàn)殡娮硬v模板沒有預(yù)設(shè)“元素”而被隱藏掉了。
近些年,醫(yī)院信息平臺(tái)建設(shè)如火如荼,隨著互聯(lián)互通測(cè)評(píng)“政治任務(wù)”式的推廣,平臺(tái)建設(shè)達(dá)到高峰,標(biāo)準(zhǔn)規(guī)范得到越來越多的應(yīng)用普及。但如弗吉尼亞·梅森醫(yī)療中心在精益變革中提出的:我們的系統(tǒng)為誰而建?
建成的數(shù)據(jù)中心依然有80%的是非結(jié)構(gòu)化數(shù)據(jù),此結(jié)構(gòu)化非彼結(jié)構(gòu)化、此標(biāo)準(zhǔn)非彼標(biāo)準(zhǔn)。醫(yī)生種的麥子,收割后加工不成面粉,制作不出包子。
1.信息平臺(tái)下的科研應(yīng)用
“集成平臺(tái)”到“信息平臺(tái)”叫法的改變,是信息化建設(shè)從“數(shù)據(jù)集成共享”到“標(biāo)準(zhǔn)規(guī)范建設(shè)”的轉(zhuǎn)變。是從著力解決信息孤島、煙囪林立,資源共建、數(shù)據(jù)共享、業(yè)務(wù)協(xié)作,到傳統(tǒng)業(yè)務(wù)領(lǐng)域、重點(diǎn)信息工程、新興技術(shù)領(lǐng)域標(biāo)準(zhǔn)體系的建設(shè)和應(yīng)用的轉(zhuǎn)變。
60項(xiàng)基礎(chǔ)類信息標(biāo)準(zhǔn)(衛(wèi)生信息數(shù)據(jù)元目錄、衛(wèi)生信息數(shù)據(jù)元值域代碼、疾病分類與代碼……)、88項(xiàng)醫(yī)院信息化標(biāo)準(zhǔn)(電子病歷基本數(shù)據(jù)集、電子病歷共享文檔規(guī)范、電子病歷與醫(yī)院信息平臺(tái)標(biāo)準(zhǔn)符合性測(cè)試規(guī)范……)、76項(xiàng)區(qū)域衛(wèi)生信息化標(biāo)準(zhǔn)(健康檔案共享文檔規(guī)范……)(數(shù)據(jù)來源:國(guó)家衛(wèi)生健康委統(tǒng)計(jì)信息中心、中國(guó)衛(wèi)生信息與健康醫(yī)療大數(shù)據(jù)學(xué)會(huì)衛(wèi)生信息標(biāo)委會(huì)),日趨完善的信息標(biāo)準(zhǔn)體系框架下,醫(yī)院、區(qū)域建成了以患者為中心的病人主索引EMPI系統(tǒng)、臨床數(shù)據(jù)中心CDR、運(yùn)營(yíng)數(shù)據(jù)中心ODR和科研數(shù)據(jù)中心RDR。
然而,海量的醫(yī)療數(shù)據(jù)卻很少能轉(zhuǎn)化成相應(yīng)的科研成果。
醫(yī)學(xué)信息分散且不完整,醫(yī)學(xué)文本信息利用很難,基于關(guān)系型的數(shù)據(jù)倉(cāng)庫(kù),病例篩選檢索耗時(shí)之長(zhǎng),信息提取效率之低,數(shù)據(jù)統(tǒng)計(jì)挖掘之繁瑣,是臨床醫(yī)生無法接受的。
走訪一下醫(yī)院,臨床醫(yī)生都在抱怨信息平臺(tái)花了上千萬,想要的數(shù)據(jù)卻沒有,做科研要檢索的病例樣本出不來。導(dǎo)致這種情況其實(shí)至少有兩個(gè)重要的原因不能忽視:一是源數(shù)據(jù)非常差;二是那么多的標(biāo)準(zhǔn)規(guī)范,公司開發(fā)的產(chǎn)品遵循得太少。
信息平臺(tái)說:這個(gè)鍋,我不背。
2.大數(shù)據(jù)平臺(tái)的科研應(yīng)用探索
現(xiàn)如今,有些醫(yī)院已經(jīng)采用Hadoop集群計(jì)算框架,分布式存儲(chǔ)、分布式運(yùn)算,非關(guān)系型數(shù)據(jù)庫(kù)NoSQL建設(shè)醫(yī)療大數(shù)據(jù)平臺(tái)。
相對(duì)于信息平臺(tái),其海量數(shù)據(jù)處理能力讓查找樣本病例達(dá)到毫秒,多維度數(shù)據(jù)導(dǎo)出統(tǒng)計(jì)也是小菜一碟,只是這時(shí)候的“面粉”稍顯粗糙。
數(shù)據(jù)結(jié)構(gòu)化程度欠佳、準(zhǔn)確匹配程度不夠、科研數(shù)據(jù)不全——麥子通通結(jié)了穗,那穗在麥浪中隨風(fēng)波動(dòng),只是還不是那么飽滿。
3.基于人工智能的科研應(yīng)用
也許是之前的預(yù)算有限,或許之前的供應(yīng)商服務(wù)雖好、技術(shù)卻停滯不前,可能是頂層架構(gòu)雖好、落地卻有偏差,同一家醫(yī)院換過幾家公司的HIS、LIS或PACS系統(tǒng)的現(xiàn)象已經(jīng)很普遍。而在建設(shè)信息平臺(tái)、大數(shù)據(jù)平臺(tái)的時(shí)候,之前的數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)還是孤立地躺在數(shù)據(jù)庫(kù)服務(wù)器里,數(shù)據(jù)得不到全面整合。
從數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù),到數(shù)據(jù)湖、數(shù)據(jù)海,我們不討論是應(yīng)該建一個(gè)“大湖”,還是建不同的數(shù)據(jù)倉(cāng)庫(kù)。從臨床科研的角度,我們需要對(duì)歷史數(shù)據(jù)全集成、所有數(shù)據(jù)全覆蓋,才能得到全面的病例樣本;我們要將非結(jié)構(gòu)化數(shù)據(jù)相對(duì)全結(jié)構(gòu)化、全標(biāo)準(zhǔn)化映射,才能做到智能檢索;我們要無邊的麥田,綠油油、清爽爽,清風(fēng)吹來,陣陣清香,精細(xì)的“面粉”方唾手可得。