“大數(shù)據(jù)”作為時(shí)下最火的詞匯,隨之而來(lái)的數(shù)據(jù)分析、數(shù)據(jù)挖掘等圍繞大數(shù)據(jù)的技術(shù)逐漸成為研究的焦點(diǎn)。早在2012年3月22日,奧巴馬就宣布美國(guó)政府五大部門投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃(Big Data Research and Development Initiative),欲大力推動(dòng)大數(shù)據(jù)相關(guān)的收集、儲(chǔ)存、保留、管理、分析和共享海量數(shù)據(jù)技術(shù)研究,以提高美國(guó)的科研、教育與國(guó)家安全能力。
而大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有特定意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。從某種程度上說(shuō),大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù),是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)技術(shù)是從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力。對(duì)于大數(shù)據(jù)時(shí)代,目前通常認(rèn)為有下述四大基本特征,稱為“四V”特征:第一,數(shù)據(jù)規(guī)模大(Volume),可稱海量;第二,數(shù)據(jù)類型多樣(Variety);第三,數(shù)據(jù)價(jià)值(Value)高;第四,要求處理速度(Velocity)快。這些特性使得大數(shù)據(jù)區(qū)別于傳統(tǒng)的數(shù)據(jù)概念。大數(shù)據(jù)的概念與“海量數(shù)據(jù)”不同,后者只強(qiáng)調(diào)數(shù)據(jù)的量,而大數(shù)據(jù)不僅用來(lái)描述大量的數(shù)據(jù),還更進(jìn)一步指出數(shù)據(jù)的復(fù)雜形式、數(shù)據(jù)的快速時(shí)間特性以及對(duì)數(shù)據(jù)的分析、處理等專業(yè)化處理,最終獲得有價(jià)值信息的能力。
一、檢驗(yàn)醫(yī)學(xué)的大數(shù)據(jù)特征
檢驗(yàn)科作為醫(yī)院里最重要的醫(yī)技部門之一,檢驗(yàn)信息系統(tǒng)(Laboratory Information system, LIS)已經(jīng)成為醫(yī)院管理信息系統(tǒng)中的重要組成部分。LIS中的檢驗(yàn)數(shù)據(jù)主要包括申請(qǐng)信息(病人基本信息,申請(qǐng)項(xiàng)目信息)、報(bào)告信息(結(jié)果信息)、其他信息(質(zhì)控信息等)。LIS的作用是將患者標(biāo)本在實(shí)驗(yàn)儀器檢驗(yàn)后獲得的數(shù)據(jù)進(jìn)行處理,生成一份檢驗(yàn)報(bào)告,再通過(guò)院內(nèi)網(wǎng)絡(luò)存儲(chǔ)在醫(yī)院數(shù)據(jù)庫(kù)中,使醫(yī)生能夠方便、及時(shí)地看到患者的檢驗(yàn)結(jié)果。同時(shí)醫(yī)生要對(duì)檢驗(yàn)結(jié)果進(jìn)行全面的分析,作為下一步診療的依據(jù)。檢驗(yàn)醫(yī)學(xué)數(shù)據(jù)有以下特點(diǎn)。
首先,檢驗(yàn)醫(yī)學(xué)數(shù)據(jù)體量巨大,在病人住院過(guò)程中會(huì)產(chǎn)生大量的檢驗(yàn)信息和其它與病人相關(guān)的數(shù)據(jù),整個(gè)醫(yī)院的檢驗(yàn)數(shù)據(jù)更是一個(gè)海量概念,一個(gè)擁有2000張病床的醫(yī)院,每年至少產(chǎn)生3000萬(wàn)條檢驗(yàn)項(xiàng)目。
其次,檢驗(yàn)醫(yī)學(xué)數(shù)據(jù)類型繁多,由于醫(yī)學(xué)數(shù)據(jù)庫(kù)本身就較為龐大,再加上醫(yī)學(xué)信息的復(fù)雜性與多樣性等因素的影響,與日常數(shù)據(jù)的處理分析相比,醫(yī)學(xué)數(shù)據(jù)分析將會(huì)更為復(fù)雜,其分析難度之大是可想而知的。在檢驗(yàn)醫(yī)學(xué)中,常規(guī)檢驗(yàn)指標(biāo)的數(shù)據(jù)一般為文本,較容易處理。但形態(tài)學(xué)檢驗(yàn),如微生物形態(tài)及骨髓細(xì)胞學(xué)的圖片數(shù)據(jù)、自身抗體等免疫熒光的圖像數(shù)據(jù)、寄生蟲檢驗(yàn)中的視頻數(shù)據(jù)、血糖血脂等指標(biāo)的動(dòng)態(tài)監(jiān)測(cè)數(shù)據(jù)等,出現(xiàn)越來(lái)越多的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)信息。而流式細(xì)胞儀的數(shù)據(jù)顯示方式甚至包括單參數(shù)直方圖、二維點(diǎn)圖、二維等高圖、假三維圖和列表模式等多種格式的復(fù)合數(shù)據(jù)。
第三,檢驗(yàn)醫(yī)學(xué)數(shù)據(jù)作為臨床醫(yī)生的重要的輔助手段,甚至骨髓細(xì)胞學(xué)、病理學(xué)及微生物學(xué)結(jié)果等具有診斷意義的結(jié)果,其價(jià)值之高不言而喻。
第四,檢驗(yàn)醫(yī)學(xué)數(shù)據(jù)處理速度快,如全自動(dòng)快速微生物質(zhì)譜檢測(cè)系統(tǒng)(MS)等質(zhì)譜技術(shù),將標(biāo)本板放入MS儀器,幾分鐘內(nèi)即可顯示鑒定結(jié)果。而高分辨率和高靈敏度的質(zhì)譜信號(hào),又使得質(zhì)譜圖的信息量巨大,數(shù)據(jù)流往往為高速實(shí)時(shí)數(shù)據(jù)流,而且往往需要快速、持續(xù)的實(shí)時(shí)處理。
目前檢驗(yàn)信息系統(tǒng)尚未開發(fā)其所在輔助診斷方面所具有的重大作用。檢驗(yàn)信息系統(tǒng)的巨大潛力尚未被開發(fā),被匯總和統(tǒng)計(jì)的數(shù)據(jù)沒(méi)有得到進(jìn)一步的挖掘和利用,隱藏在數(shù)據(jù)里面的有價(jià)值的信息沒(méi)有充分的發(fā)揮其功效,臨床診斷得不到有效信息的支持。尤其針對(duì)上述一些復(fù)雜的醫(yī)療數(shù)據(jù),特別對(duì)于一些毫無(wú)數(shù)據(jù)特征,無(wú)規(guī)律科學(xué)的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)分析方法已經(jīng)不再適用,而數(shù)據(jù)挖掘技術(shù)是一種有效的分析方法,具有十分重要的作用?,F(xiàn)階段,在數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用之后,檢驗(yàn)醫(yī)學(xué)領(lǐng)域的學(xué)者正對(duì)此進(jìn)行深入的研究。
二、數(shù)據(jù)挖掘技術(shù)簡(jiǎn)述
數(shù)據(jù)庫(kù)技術(shù)的發(fā)展解決了海量的醫(yī)學(xué)數(shù)據(jù)的存儲(chǔ)和數(shù)據(jù)檢索的效率問(wèn)題,如何充分利用這些寶貴的醫(yī)學(xué)信息資源來(lái)為疾病的診斷和治療提供科學(xué)的決策,促進(jìn)醫(yī)學(xué)研究,已成為人們關(guān)注的焦點(diǎn)。數(shù)據(jù)挖掘(Data Mining, DM) 是近幾年才發(fā)展起來(lái)的信息處理技術(shù),它是從大量數(shù)據(jù)中提取出可信的、新穎的、有效的并最終能被人理解的模式的處理過(guò)程,涉及數(shù)據(jù)庫(kù)、人工智能、統(tǒng)計(jì)學(xué)、模式識(shí)別、可視化技術(shù)、并行計(jì)算等眾多領(lǐng)域知識(shí)。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到醫(yī)學(xué)信息數(shù)據(jù)庫(kù)中,可以發(fā)現(xiàn)其中的精細(xì)的醫(yī)學(xué)診斷規(guī)則和模式,在對(duì)疾病重新分類的基礎(chǔ)上,對(duì)具有相同病因、共同發(fā)病機(jī)制的患者亞群實(shí)現(xiàn)精準(zhǔn)的診斷、評(píng)估、預(yù)測(cè)、治療和預(yù)防,輔助患者恢復(fù)健康,實(shí)現(xiàn)患者的價(jià)值最大化。這是精準(zhǔn)醫(yī)學(xué)的精髓。
1. 數(shù)據(jù)挖掘的分析方法
數(shù)據(jù)挖掘根據(jù)不同的任務(wù)要求具有不同的分析方法,可以實(shí)現(xiàn)不同的功能要求。其中主要可以分為六大不同的分析方法,分別是:分類( Classification )、估值(Estimation )、預(yù)言(Prediction )、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules )、聚集(Clustering )、描述和可視化(Description and Visualization),包括文本數(shù)據(jù)挖掘。WEB數(shù)據(jù)挖掘、圖形圖像數(shù)據(jù)挖掘、視頻和音頻數(shù)據(jù)挖掘。數(shù)據(jù)挖掘通過(guò)不同的分析方法可以實(shí)現(xiàn)強(qiáng)大的功能。
2. 數(shù)據(jù)挖掘的知識(shí)類型
數(shù)據(jù)挖掘是通過(guò)在大型的數(shù)據(jù)庫(kù)中根據(jù)自己的需要篩選有用的信息,其主要的目的就是發(fā)現(xiàn)知識(shí),這種系統(tǒng)中的表現(xiàn)形式具有多樣化的特點(diǎn),通過(guò)采用特定的挖掘方法進(jìn)行分析,掌握數(shù)據(jù)挖掘系統(tǒng)的固有特征,明確其所能發(fā)現(xiàn)知識(shí)的種類。通過(guò)比較分析,數(shù)據(jù)挖掘系統(tǒng)的知識(shí)類型主要可以分為以下幾大類:廣義型知識(shí)(Generalization)、分類知識(shí)(Classification)、聚類知識(shí)(Clustering)、差異型知識(shí)(Discrimination)、關(guān)聯(lián)型知識(shí)(Association)、序貫?zāi)J?Sequential patterns)、情節(jié)知識(shí)(Episodes)、預(yù)測(cè)型知識(shí)((Prediction)、演化型知識(shí)((Evolution)、偏差知識(shí)(Deviation)。
3. 數(shù)據(jù)挖掘的任務(wù)及方法
根據(jù)挖掘任務(wù)可以分為:分類或預(yù)測(cè)模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)與聚類發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、相似模式發(fā)現(xiàn)、混沌模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等。數(shù)據(jù)挖掘的方法根據(jù)任務(wù)的不同可以選擇合適的方法,目前數(shù)據(jù)挖掘的方法主要可以分為基于統(tǒng)計(jì)學(xué)的挖掘方法、基于神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘方法、數(shù)據(jù)庫(kù)方法等?;?/span>統(tǒng)計(jì)學(xué)的數(shù)據(jù)挖掘方法建立在統(tǒng)計(jì)學(xué)知識(shí)的基礎(chǔ)上,通過(guò)統(tǒng)計(jì)學(xué)的回歸分析和判據(jù)分析等多種專業(yè)知識(shí)完成數(shù)據(jù)挖掘的任務(wù)?;谏窠?jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘方法是一種智能化的數(shù)據(jù)分析技術(shù),通過(guò)自適應(yīng)的數(shù)據(jù)分析技術(shù),進(jìn)行訓(xùn)練和學(xué)習(xí)滿足多種數(shù)據(jù)挖掘任務(wù)的需要。神經(jīng)網(wǎng)絡(luò)技術(shù)可以細(xì)致的劃分為前神經(jīng)網(wǎng)絡(luò)和自組織神經(jīng)網(wǎng)絡(luò)。
三、數(shù)據(jù)挖掘在檢驗(yàn)醫(yī)學(xué)中的應(yīng)用
隨著醫(yī)療檢驗(yàn)手段的飛速發(fā)展,經(jīng)過(guò)多年的醫(yī)療系統(tǒng)信息化建設(shè),檢驗(yàn)信息系統(tǒng)已經(jīng)積累和沉淀了海量的病人檢驗(yàn)數(shù)據(jù),能否從這些海量數(shù)據(jù)中挖掘?qū)︶t(yī)生、病人和檢驗(yàn)技師的有價(jià)值的參考信息,能否利用這些參考信息給未來(lái)病人提供有價(jià)值的參考呢?能否根據(jù)這些歷史數(shù)據(jù),分析出某些疾病跟某些因素有關(guān)呢?譬如飲食結(jié)構(gòu)、地區(qū)分布、男女特征和年齡段分析。筆者認(rèn)為通過(guò)數(shù)據(jù)挖掘技術(shù)可以實(shí)現(xiàn)以上需求。
(1)疾病診斷:正確的診斷對(duì)于指導(dǎo)病人的用藥及康復(fù)顯然是重要的,在臨床中有些疾病錯(cuò)綜復(fù)雜,數(shù)據(jù)挖掘的有關(guān)分類分析可以應(yīng)用于疾病的診斷。粗糙集理論、人工神經(jīng)網(wǎng)絡(luò)、模糊邏輯分析在疾病診斷方面是有效的?,F(xiàn)階段,在數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用之后,已有學(xué)者探索將LIS的數(shù)據(jù)應(yīng)用于輔助診斷。耿中澤利用決策樹和模糊聚類分析兩種數(shù)據(jù)挖掘技術(shù),嘗試實(shí)現(xiàn)檢驗(yàn)醫(yī)學(xué)計(jì)算機(jī)輔助診斷,并由此得出應(yīng)用的一般模式。
(2)疾病相關(guān)因素分析:在LIS數(shù)據(jù)庫(kù)中有大量的關(guān)于病人的檢驗(yàn)結(jié)果和病人的個(gè)人信息,包括年齡、性別、診斷、職業(yè)、類別等,對(duì)數(shù)據(jù)庫(kù)中的信息進(jìn)行關(guān)聯(lián)規(guī)則分析可以發(fā)現(xiàn)有意義的關(guān)系及模式,某種疾病的相關(guān)發(fā)病危險(xiǎn)因素分析可以指導(dǎo)患者如何預(yù)防該疾病。王專等對(duì)心腦血管疾病生化檢驗(yàn)進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)了有意義的關(guān)系及模式。鄭旅芳利用人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)對(duì)胃腸腫瘤標(biāo)志物進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)對(duì)多項(xiàng)檢驗(yàn)項(xiàng)目分析具有更高的診斷效率,可以對(duì)診斷大腸癌進(jìn)行指導(dǎo)。Ramezankhani.A等采用關(guān)聯(lián)規(guī)則挖掘技術(shù)確定2型糖尿病的發(fā)病率模式。
(3)在檢驗(yàn)醫(yī)學(xué)圖像中的應(yīng)用:檢驗(yàn)醫(yī)學(xué)領(lǐng)域中越來(lái)越多的形態(tài)學(xué)檢驗(yàn),應(yīng)用圖像作為疾病診斷的工具,如骨髓細(xì)胞學(xué)及微生物涂片的圖片數(shù)據(jù)、自身抗體等免疫熒光的圖像數(shù)據(jù)等,數(shù)據(jù)挖掘可以應(yīng)用于圖像的分析。但目前未見在檢驗(yàn)醫(yī)學(xué)中形態(tài)學(xué)檢驗(yàn)上的應(yīng)用報(bào)道。
(4)在DNA相關(guān)檢驗(yàn)項(xiàng)目中的應(yīng)用:如DNA序列分析可用非線性相關(guān)統(tǒng)計(jì)法—AMI(average mutual information)。另外對(duì)DNA序列間相似搜索與比較(對(duì)分別來(lái)自帶病和健康組織的基因序列,進(jìn)行比較以識(shí)別兩類基因間的差異),可以認(rèn)為是導(dǎo)至疾病的基因因素檢驗(yàn)。王洪波等提出了基于流形學(xué)習(xí)的DNA序列數(shù)據(jù)挖掘方法,不但平均識(shí)別率高,而且計(jì)算時(shí)間相對(duì)較少。
(5)在醫(yī)學(xué)其他方面的應(yīng)用:數(shù)據(jù)挖掘還可應(yīng)用于寄生蟲檢驗(yàn)中的視頻數(shù)據(jù)、血糖血脂等指標(biāo)的動(dòng)態(tài)監(jiān)測(cè)數(shù)據(jù)等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)信息分析。流式細(xì)胞儀的數(shù)據(jù)的單參數(shù)直方圖、二維點(diǎn)圖、二維等高圖、假三維圖和列表模式等數(shù)據(jù)也可用數(shù)據(jù)挖掘來(lái)分析。還有在醫(yī)學(xué)其他方面的應(yīng)用:Shah.BR等認(rèn)為數(shù)據(jù)挖掘已被應(yīng)用于糖尿病臨床研究的許多方面,包括經(jīng)典的流行病學(xué)、效能研究、人口健康與衛(wèi)生服務(wù)研究等。Sung SF等等利用數(shù)據(jù)挖掘技術(shù)開發(fā)了一個(gè)腦卒中管理軟件,用于分析卒中預(yù)后的嚴(yán)重程度。
四、小結(jié)
盡管檢驗(yàn)醫(yī)學(xué)的數(shù)據(jù)極為豐富,但運(yùn)用數(shù)據(jù)挖掘技術(shù)分析和處理這些數(shù)據(jù)資源的研究,在我國(guó)尚處于起步階段。目前檢驗(yàn)醫(yī)師工作難于開展的關(guān)鍵問(wèn)題,是沒(méi)有對(duì)大量的檢驗(yàn)數(shù)據(jù)進(jìn)行規(guī)范化和系統(tǒng)化的挖掘與總結(jié)。人體成分錯(cuò)綜復(fù)雜且瞬時(shí)變化,加上檢測(cè)誤差等等因素使得檢驗(yàn)結(jié)果呈現(xiàn)出統(tǒng)計(jì)分布特點(diǎn),因此檢驗(yàn)結(jié)果對(duì)于疾病或健康狀態(tài)的表征不如影像檢查那樣直觀,如果不能正確分析則得不到病人或臨床滿意的認(rèn)同。數(shù)據(jù)挖掘可以根據(jù)檢驗(yàn)結(jié)果給醫(yī)生、病人、檢驗(yàn)技師提供可疑病情診斷參考,也可以給醫(yī)療雜志、國(guó)民健康提供經(jīng)過(guò)挖掘分析的生活指標(biāo)指導(dǎo)。在互聯(lián)網(wǎng)、HIS和LIS基本普及的信息時(shí)代,將臨床信息、檢驗(yàn)信息和患者信息聯(lián)系起來(lái),對(duì)本身具有統(tǒng)計(jì)分布屬性的檢驗(yàn)結(jié)果進(jìn)行數(shù)據(jù)挖掘,提煉成為有臨床價(jià)值的重要信息,是檢驗(yàn)醫(yī)學(xué)未來(lái)臨床應(yīng)用的關(guān)鍵技術(shù)。
來(lái)源:檢驗(yàn)醫(yī)學(xué)網(wǎng) 作者: 陸軍總醫(yī)院檢驗(yàn)科 劉杰