基于數(shù)據(jù)挖掘技術的醫(yī)療設備績效預測方法的應用研究.pdf_第1頁
已閱讀1頁,還剩101頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、本文在系統(tǒng)介紹數(shù)據(jù)挖掘技術相關知識的基礎上,重點研究了建立數(shù)據(jù)倉庫的技術和決策樹挖掘算法及其在醫(yī)療設備績效預測中的應用。 目前,醫(yī)療機構把絕大部分的經營積累用于購置醫(yī)療設備,每年用于購置醫(yī)療設備的費用約占當年形成的可動用資金的80%,因此,醫(yī)療設備效益的好壞直接關系到醫(yī)療機構的經營狀況,直接關系到醫(yī)療機構能否為廣大患者提供良好的服務、能否穩(wěn)定、持續(xù)地發(fā)展的重要課題。正因為如此,衛(wèi)生部《醫(yī)院管理評價指南(試行))》中要求醫(yī)療機構購

2、置大型醫(yī)療設備必須經過嚴格的可行性論證并加強大中型醫(yī)療設備合理應用成本分析,而對醫(yī)療設備在購置前就對其投入使用后的績效進行預測,是醫(yī)療設備購置前進行可行性論證中最為關鍵的一環(huán),也是醫(yī)療設備投入使用后進行合理應用成本分析的前提。數(shù)據(jù)挖掘技術當前已經成為數(shù)據(jù)庫和信息決策領域的前沿研究方向之一,受到國內外學術界的廣泛關注,在商業(yè)、工業(yè)和醫(yī)學領域都得到了較為廣泛的應用,取得了顯著的社會及經濟效益。因此,應用數(shù)據(jù)挖掘技術的理論和方法,對醫(yī)療設備的

3、績效預測方法進行深入的研究,對于充分發(fā)揮醫(yī)療設備的社會效益和經濟效益,具有重要意義。 近年來,隨著計算機技術、網(wǎng)絡技術的迅速發(fā)展和醫(yī)院信息系統(tǒng)(HIS)在醫(yī)院的普及和廣泛應用,雖然HIS中包含有病人信息管理模塊和醫(yī)療設備管理模塊,但兩者是相互分離的,相應的軟件模塊僅局限于分別對病人信息和醫(yī)療設備信息進行錄入、修改、查詢、統(tǒng)計等簡單功能的實現(xiàn),停留在基于數(shù)據(jù)庫技術支持的操作型事務處理的水平上。對醫(yī)療設備購置前的可行性論證的決策支持

4、和投入使用后的設備使用、維護等信息的深層次加工較少,如何充分利用這些寶貴的信息資源來為醫(yī)院的管理者和決策者實施對醫(yī)療設備的高效管理和科學決策提供準確、可靠的依據(jù),提高醫(yī)療設備的社會效益和經濟效益,促進醫(yī)院的快速健康發(fā)展,已成為人們關注的焦點。 數(shù)據(jù)挖掘(DataMining,DM)也稱為數(shù)據(jù)庫知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),這一術語出現(xiàn)于1989年,是從數(shù)據(jù)庫中識別出有效的、新穎的、

5、潛在有用的、并且最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘技術在90年代有了突飛猛進的發(fā)展,數(shù)據(jù)挖掘從理論和技術上繼承了知識發(fā)現(xiàn)領域的成果,同時,它還借鑒了許多其它領域的理論和算法,如數(shù)據(jù)庫系統(tǒng)、機器學習、模式識別、人工智能、數(shù)據(jù)可視化、信息檢索以及統(tǒng)計學等。數(shù)據(jù)挖掘本質上可歸類為深層次的數(shù)據(jù)分析方法。數(shù)據(jù)分析本身已經有很多年的歷史,不過由于以往計算能力的局限性,限制了對大量數(shù)據(jù)進行分析的復雜數(shù)據(jù)分析方法的應用。近年來,由于電子信息技術的發(fā)

6、展及應用的普及,商業(yè)、醫(yī)療及其它領域都產生了大量的業(yè)務數(shù)據(jù),分析這些數(shù)據(jù)可以為決策提供真正有價值的信息,因此具有重要的意義。 數(shù)據(jù)挖掘的結果通常表示為概念、規(guī)則、規(guī)律、模式、約束、可視化等形式。通過數(shù)據(jù)挖掘所獲得的知識可以直接用于輔助決策或修正已有的知識體系,也可作為新的知識存儲于應用系統(tǒng)中。數(shù)據(jù)挖掘的原始數(shù)據(jù)可以是結構化的;也可以是半結構化的,如文本、圖形和圖像數(shù)據(jù);甚至是分布在網(wǎng)絡上的異構型數(shù)據(jù)。發(fā)現(xiàn)的知識可以被用于信息管理

7、、查詢優(yōu)化、決策支持和過程控制等,還可以用于數(shù)據(jù)自身的維護。因此,數(shù)據(jù)挖掘是一門交叉學科,它把人們對數(shù)據(jù)的應用從低層次的簡單統(tǒng)計、查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持。 數(shù)據(jù)挖掘需要良好的數(shù)據(jù)組織和純凈的數(shù)據(jù),數(shù)據(jù)的質量直接影響數(shù)據(jù)挖掘的效果,而數(shù)據(jù)倉庫的特點恰恰最符合數(shù)據(jù)挖掘的需求,它從各類數(shù)據(jù)源中抽取數(shù)據(jù),經過清洗、集成、選擇、轉換等處理,為數(shù)據(jù)挖掘所需要的高質量數(shù)據(jù)提供了保證。數(shù)據(jù)倉庫是數(shù)據(jù)庫技術發(fā)展的高級階段,它是

8、面向主題的、集成的、內容相對穩(wěn)定的、隨時間變化的數(shù)據(jù)集合,可以用來支持管理決策的定制過程。數(shù)據(jù)倉庫系統(tǒng)允許將各種應用系統(tǒng)、多個數(shù)據(jù)庫集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,其主要目的是為決策提供支持,為OLAP、數(shù)據(jù)挖掘等深層的數(shù)據(jù)分析提供平臺??梢哉f,數(shù)據(jù)挖掘為數(shù)據(jù)倉庫提供了有效的分析處理手段,數(shù)據(jù)倉庫為數(shù)據(jù)挖掘準備了良好的基礎。 SQLServer2005IntegrationServices(SSIS)是用于創(chuàng)建高

9、性能的數(shù)據(jù)集成解決方案的平臺,它能夠執(zhí)行抽取(extraction),轉換(transformation)和加載(load),縮寫為ETL,用于為數(shù)據(jù)倉庫提供服務。SSIS提供了工作流環(huán)境,可以使用該環(huán)境來構建數(shù)據(jù)轉換包??梢詮牟煌臄?shù)據(jù)源中提取數(shù)據(jù),然后對該數(shù)據(jù)執(zhí)行一系列操作。 由于醫(yī)學數(shù)據(jù)庫是一個復雜數(shù)據(jù)庫,而目前數(shù)據(jù)挖掘技術主要應用于以結構化數(shù)據(jù)為主的關系數(shù)據(jù)庫、事務數(shù)據(jù)庫和數(shù)據(jù)倉庫,對復雜類型數(shù)據(jù)的挖掘尚處在起步階段。結

10、合醫(yī)學信息自身具有的特殊性和復雜性,處理好挖掘過程中的關鍵技術,醫(yī)學數(shù)據(jù)挖掘將有廣闊的應用前景。分類和預測是數(shù)據(jù)挖掘的兩種數(shù)據(jù)分析形式,通常的算法有粗糙集理論、決策樹、人工神經網(wǎng)絡、漸近計算等,各有優(yōu)點。應該注意的是大部分算法都不是專業(yè)為解決某個問題而特制的,算法之間也并不互相排斥。一般來說并不存在所謂的最好的算法,在最終決定選取哪種算法之前,有可能對各種算法都試一下,然后再選取一個較好的。在實際應用中,可對這些方法進行適當?shù)男薷?、擴充

11、和優(yōu)化,從而能在各種特殊的醫(yī)學數(shù)據(jù)庫中進行分類和預測。本文重點研究決策樹算法的原理及方法。 決策樹算法最基本的原理是遞歸地將數(shù)據(jù)拆分成子集,以便每一個子集包含目標變量類似的狀態(tài),這些目標變量是可預測屬性。每一次對樹進行拆分,都要評價所有的輸入屬性對可預測屬性的影響。當這個遞歸的過程結束時,決策樹也就創(chuàng)建完成了。比較有名的決策樹算法有ID3算法、ID4算法、ID5R算法、C4.5算法。 當今先進的數(shù)據(jù)挖掘工具都提供多種可供

12、選擇的數(shù)據(jù)挖掘算法。這是因為一種算法不可能完成所有不同類型的數(shù)據(jù)挖掘任務。本次挖掘任務可分為兩部分的任務:分類任務和回歸任務。 分類任務是:對不同條件下的設備使用情況進行分類。假設疾病例數(shù)和設備使用情況存在線性關系:y=αx+b,其中x表示疾病例數(shù),y表示設備使用次數(shù),根據(jù)這個公式就能對設備的使用情況進行預測。簡單來說,如何得到這個公式的任務就是回歸算法的主要任務。 同時可以假定,不同的設備和不同的疾病種類會有不同的線性

13、關系(函數(shù)),所以需要對不同的關系進行分類,例如’cT檢查’與’肺炎’存在線性公式y(tǒng)=α1x+61,’CT檢查’與’肺癌’存在線性公式y(tǒng)=α2x+62。 對于本次挖掘任務,決策樹算法與其它的數(shù)據(jù)挖掘算法相比有一定優(yōu)勢,如利用決策樹算法可以快速創(chuàng)建挖掘模型,并且創(chuàng)建的模型也容易解釋。每一條從根節(jié)點到葉節(jié)點的路徑就是一條規(guī)則,基于決策樹的預測也非常高效。本次任務主要是對醫(yī)療設備的績效進行預測,因此,用決策樹算法來完成本次挖掘任務是一

14、個較好的選擇。 SQLServer2005AnalysisServices(SSAS)的決策樹算法(MicrosoftDecisionTrees)是一個混合決策樹算法,Microsoft線性回歸算法不拆分數(shù)據(jù),并且回歸公式基于整個數(shù)據(jù)集,這個算法支持分類和回歸兩種任務。Microsoft回歸樹的每一個葉節(jié)點都有一個線性回歸公式。在每一個回歸模型中至少有一個回歸量(regressor)?;貧w量是一個連續(xù)的輸入屬性,這個輸入屬性采用

15、線性的方式對連續(xù)的可預測屬性進行建模。例如,使用B超次數(shù)是一個連續(xù)的可預測屬性,則疾病例數(shù)就是一個回歸量。經典的線性回歸公式是:使用B超次數(shù)=α+b*疾病例數(shù)+e,其中:e代表噪聲,其平均值為0,系數(shù)a(截距)和b(斜率)由殘差方程決定。 本文對數(shù)據(jù)挖掘技術的理論和方法進行了研究探討,并將其應用于基于數(shù)據(jù)挖掘技術的醫(yī)療設備績效預測的研究中,在對得到的數(shù)據(jù)挖掘模型進行測試、評估時,CT、MRI、CR、B超、彩超、電子胃鏡、電子腸鏡

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論