時間:2023-07-28 16:33:42
序論:在您撰寫統計學的分析方法時,參考他人的優秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發您的創作熱情,引導您走向新的創作高度。
1.教學課程缺乏
2011年統計學專業才作為一級學科在研究生專業中開設,統計碩士的教學尚未形成體系。統計學專業在研究生專業中的開設歷史短,各大高校對統計學的學科建設及各個研究方向的培養計劃還不夠完善,導致教學模糊。課程安排也存在不合理的地方,統計碩士必須具有扎實的統計基礎才能更好地從事統計的研究工作。統計學專業的學習要求學生的數學基礎及數理統計基礎較好。統計碩士的培養計劃中,專門培養統計能力的課程較少,其余多是根據每個導師所研究的領域安排的課程,與統計直接相關的課程尤為缺乏。
2.教學形式單一,缺乏實例
隨著社會的進步,統計學的知識越來越豐富,統計學的應用越來越廣泛,但統計碩士的教學形式卻還很單一。統計碩士教學多是板書或是通過多媒體教學,大部分課程都是老師講、學生聽,只有極少數的課程由學生講解或討論。這些少數的課程是不同研究方向的課程討論,加深了學生在自己研究領域的知識領悟,但統計學基礎知識并沒有鞏固。統計學是一門綜合性學科,它的應用范圍幾乎覆蓋了科學的各個領域。統計學應用廣泛,通過各種軟件來實現取據的分析。高校開設的軟件課程一般包括SPSS、Matlab、R軟件等,掌握這些軟件最好的方法就是在實際中來運用。教學實例的欠缺,讓統計學專業的碩士研究生在學習或應用統計知識時困難重重。
二、方法建議
1.合理規劃研究方向
目前統計學碩士教學中存在統計學各研究方向教學模糊。合理地規劃各個研究方向及培養計劃是培養統計碩士的基礎。如今統計學滲透于各行各業,社會科學、自然科學都離不開統計學知識。統計學研究方向的劃分,需要結合統計學實際的運用及當前的研究領域。不管研究方向如何設置,都要著眼于統計學的基礎知識及與之相結合的學科,例如教育統計,應該結合統計知識與教育學的知識,而不是單方面的教育或統計知識,統計學的作用就是運用統計知識處理解決其他學科的實際數據等問題。
2.適當增加教學課程、教學實例
研究生的課程較少,統計學更需要掌握好理論知識再運用于實踐。增加統計學的基礎課程,增設統計學學生都需要學習的課程,加強統計學知識的學習。統計學是研究搜集數據、分析數據并通過分析數據的結果正確地推斷出某種現象規律的科學。統計學教學與實際例子密不可分,增加教學實例不僅能加強專業方向的研究,還能引導學生深入研究以及加強對統計學專業知識的靈活運用。
3.采用多元化教學
統計碩士的教學存在教學手段單一的問題,多元化的教學手段是改變目前教學單一的一種方式。通過數據收集,根據所學統計知識運用統計軟件分析,最終得出結論及提出建議。在分析數據的過程中不僅學會運用,而且加強知識的理解和記憶。除了統計軟件的教學,學生還可通過感興趣的實際案例來學習掌握知識。學生講課的形式也是一種可采用的教學方式,學生提前準備要講的內容。多元化的教學方式不僅能加強學生的學習興趣,而且能讓學生更好地掌握知識。
三、結束語
Statistical and Machine
Learning Approaches for
Network Analysis
2012,344p
Hardcover
ISBN9783527331833
M·德默等編
圖形結構被用于計算機可以識別的結構信息時,對圖形信息進行統計分析就成為可能。生物信息學、分子與系統生物學、理論物理、計算機科學、化學、工程等多個領域都在利用這一特點充分發揮計算機在分析和統計方面的優勢。本書的一個重要特點就是將諸如圖論、機器學習及統計數據分析之類的理論相互結合,形成一個新領域,以交叉學科的方式探索復雜網絡。基因組、蛋白質,信號以及代謝組學數據的大規模生成使得復雜網絡的構建成為可能,它為理解生理學以及病理學狀態的分子基礎提供了一個嶄新的框架。網絡和基于網絡的方法用于生物學中以便表征基因組、遺傳機理以及蛋白質信號。疾病被看作關鍵細胞網絡的異常干擾。如今,在對諸如癌癥、糖尿病等的復雜疾病的干預中,就使用網絡理論來分析。
本書共有11章:1.重構及劃分生物網絡計算方法概論; 2.復雜網絡入門:度量、統計性質及模型; 3.進化中的生物網絡建模; 4.內含動力學的生物網絡的模塊性配置; 5.統計概算機對管理網絡大規模因果推理的影響; 6.加權頻譜分布:網絡結構分析的度量; 7.進化中的隨機二部圖的結構; 8.圖形內核; 9.用于早老性癡呆病的基于網絡的信息協同分析; 10.結構化數據中基于密度的集合枚舉; 11.采用加權圖形內核的下位詞析取。
本書第1主編是奧地利健康與生命大學生物信息學和轉化研究所所長,他在生物信息學、系統生物學和應用離散數學領域130篇。他是Wiley出版的《復雜疾病醫學生物統計學》《復雜網絡分析》和《微陣列數據分析》等書的合作編者。
本書可用作應用離散數學、生物信息學、模式識別、計算機科學專業跨學科研究生課程的補充讀物,對于這些領域的研究人員和專業人員,也是一本有價值的參考書。
胡光華,退休高工
(原中國科學院物理學研究所)
【關鍵詞】統計學、教學方法方差分析(ANOVA)萊文方差等同性檢驗
一、引言
方差分析是一種常用的統計分析方法,屬于統計學教學中的重點和難點之一。從統計方法上課,方差分析是較為復雜的一種假設檢驗的方法,回歸分析的結果中也涉及到方差分析的內容,所以對學習統計學課程的學生來說,正確理解和掌握方差分析的思想和原理顯然非常重要。但從授課教師的角度,一些教師往往會發現方差分析的內容不好講,也講不好,無法讓學生較好地理解方差分析的原理。本文基于筆者多年統計學課程教學的經驗總結,圍繞方差分析的概念、原理和前提條件等教學內容,與同行探討教學方法。
二、方差分析的概念
方差分析(AnalysisofVariance,縮寫為ANOVA),是由英國統計與遺傳學家,現代統計科學的奠基人之一,R.A.Fisher發明的,用于檢驗多個總體均值是否全相等的一種統計推斷方法。例如,一個國家不同地區的成年男性平均身高是否相等呢?對于該問題的分析就可以使用方差分析的方法。假設該國分為北部、中部和南部等三個區域,成年男性平均身高分別用來表示,則相應零假設和備擇假設為:
H0:μ1=μ2=μ3H1:μj不相等,j=1,2,3
如果最后零假設無法被拒絕,可以得出三個地區成年男性的平均身高不存在顯著差異,即地區因素對身高沒有影響;反之,如果最后拒絕零假設,從而支持被擇假設,則可以得出三個地區成年男生的平均身高存在顯著差異,至少有一個地區的平均身高與另一個地區不一樣,說明地區因素對身高有影響。因此,方差分析也可以用于研究一個自變量(通常為分類變量)對別一個變量(數值變量)是否有影響的問題。如果只涉及到一個自變量,該方差分析方法稱為單因素方差分析,涉及兩個自變量則稱為雙因素方差分析。本文主要圍繞單因素方差分析的教學。方差分析的名稱容易造成學生的誤解,使一些學生誤認為方差分析是比較多個總體方差。其實,方差分析是用來比較總體均值是否相同的,但由于使用計算“方差”的方法,故把該方法稱作方差分析。
三、方差分析的原理
為了比較多個總體的均值是否相等,方差分析將通過計算樣本數據的方差大小進行判斷。假設在北部、中部和南部分別隨機、獨立地抽取一定樣本容量的樣本,這里為了便于分析,從三地分別抽取3名成年男性,樣本容量為9,并記錄身高的樣本數據,如下圖所示。
方差分析就是比較樣本數據中北部、中部和南部這三組數據的組間方差和各組數據的組內方差的大小,并構造F檢驗統計量進行檢驗。組間方差度量樣本數據中組與組之間的變異,從數據結構的角度看表現為數據的橫向差異。造成組間數據變異有兩個因素,一個是地區因素,另一個是隨機因素。組內方差度量樣本數據中各組內部的數據變異,是由于抽樣的隨機性導致,表現為數據的縱向差異。如果組間數據的方差明顯地超過組內數據的方差,很可能表明地區因素會顯著影響成年男性的身高,從而不同地區成年男性的平均身高存在差異。
為了計算組間方差(MSA),需要先求組間平方和(SSA)和相應的自由度(C-1),其中C為組數,這里為3。組間方差等于組間平方和與相應自由度的比值。
MSA=
組間平方和用每組的均值與所有數據的均值之差的平方再乘以該組觀測值的個數來表示。組間平方和越大,說明各組之間的數據差異越大,當然如果組數越多組間平方和也會越大,因此這里不用直接用平方和直接進行比較。
為了計算組內方差(MSW),需要先求組內平方和(SSW)和相應的自由度(N-C),其中N為所有觀測值的個數,這里為9。組內方差等于組內平方和與相應自由度的比值。
MSA=
組內平方和用每組的觀測值與該組數據的均值之差的平方和來表示。組內平方和越大,說明各組內部的數據差異越大,當然如果各組的觀測值越多,則組內平方和也會越大。
有了組間方差和組內方差,就可以造成出F檢驗統計量,再與臨界值比較,可以就以做出統計決策。
FSTAT=
其中,服從分子自由度為C-1,分母自由度為N-C的F分布,其臨界值可以在指定顯著性水平下通過查表獲得。
在樣本量較大情況下,手工計算顯然耗時耗力,方差分析的相關
算一般需要通過統計軟件來完成。以下是用EXCEL進行方差分析的輸出結果。
EXCEL共輸出2個表格,第一個表格是對樣本數據進行描述分析,從中可以發現各組觀測值的個數、均值和方差。第二個表格為方差分析的結果。方差分析把數據的差異區分為組間差異和組間差異,SS為平方差,從表中可以SSA=0.020,SSW=0.018,df為自由度,組間平方和對應的自由度C-1=2,組內平均和對應的自由度為N-C=6。MS為均方,組間均方MSA=0.010,組內均方MSW=0.003。F為檢驗統計量,其值為MSA/MSW=3.307。在0.05顯著性水平下,F的臨界值約為5.14。如果使用P值法進行假設檢驗,EXCEL也給了相應的P值,約為0.108。根據EXCEL單因素方差分析的輸出結果,不管使用臨界值還是P值法,在0.05的顯著性水下,我們都可以得出不拒絕零假設的結論,即三個地區成年男性的平均身高不存在顯著差異,同時也表明地區因素沒有顯著地影響成年男生的身高。
四、方差分析的前提條件
在統計方法的教學過程中,都要強調使用某種統計方法的前提假設條件,如果條件滿足,就不能使用相應的統計方法。在方差分析的教學過程中,同樣需要強調方差分析的三個前提假設,即樣本是隨機、獨立抽樣的,每個總體是正態分布并且方差相等。其中抽樣的隨機性和獨立性相對容易做到,總體是否為正態分布可以通過直方圖等方法進行判斷。最后總體方差相等是一個非常重要的條件,如果該條件不滿足,就不能進行方差分析。如果各總組(各組)本身方差大小存在顯著差異,就不能從數據中發現由于地區因素造成的數據變異到底有多大。關于總體同方差假設是否成立可能用萊文方差等同性檢驗來解決。
萊文方差等同性檢驗第一步是對各組樣本數據排序,找中位數;第二步計算各組觀測值與其中位數之差的絕對值;第三步對絕對值做單因素方差分析;第四步得出結論。
根據萊文方差等同性檢驗的EXCEL輸出結果,可以得出三個地區成年男性身高的方差不存在顯著差異,可以進行方差分析。
【關鍵詞】醫學統計學方法;管理;醫療資源;策略;效果
隨著國民經濟水平的增長,醫療行業也呈現欣欣向榮的勢態發展。在醫院建設發展以及日常管理中,醫療資源是最重要的部分,尤其是醫務人員、醫療設備等等。很多醫院正是由于醫療資源的管理方式欠缺妥當,導致了醫療資源分配不合理,對醫療衛生服務的正常開展造成了嚴重的影響[1]。如何采取有效的管理方式提高醫療資源的管理水平和醫療資源的利用率是醫院發展和管理中不懈努力的目標。醫學統計學正是在這一背景下研究的一種新型醫療資源管理方法。鑒于此,本文就運用醫學統計學方法管理醫療資源的策略和效果進行簡單的論述。
1資料與方法
1.1一般資料選取我院2009年12月——2012年12月間信息系統數據庫中的所有醫療資源相關記錄進行統計分析,主要包括人力資源配置、患者情況、床位數設置等等。
1.2數據處理將本次統計調查的實驗數據均錄入SPSS17.0軟件包進行統計學分析,計量資料以均數±標準差表示,以P
2結果
2.1人力資源配置通過統計我院2009年12月——2012年12月間的醫生、護士人員情況,并與床位計算比例,最后與國家衛生部頒布的床位和醫生比例發現我院計算所得的數據偏低[2]。由于我院還擔任有臨床教學任務,在人力資源職務分配上面,一些醫務人員不僅要負責臨床診治,還要進行教學工作,這就大大增加了醫務人員的工作量和工作壓力。因此人力資源欠缺是首要問題,需要擴大醫務人員隊伍;另外是在科室分配方面欠缺妥當,一些科室的患者多、疾病復發,而一些科室的患者少、疾病簡單,在人力資源分配上面有點一概而論,使得一些資歷深、技術水平高的醫師無法充分的發揮其技術,而在患者多、疾病復發的科室又欠缺資歷深、醫療技術水平高的醫師。經過統計學方法分析發現,在神經內科的醫師偏多,尤其是資歷深的醫師;而一些新成立的科室則欠缺資歷深的醫師。通過統計學方法計算出各科室合理安排醫師情況最終進行了適當的調整。
2.2床位管理我院在近幾年均進行了床位擴大,但是患者的數量在不斷增多,且增長的速率超過了床位增長率。因為床位依然不夠,時常出現床位緊張的情況,通過統計學方法計算出了按照標準情況欠缺的床位數量并進行了補充;另一方面是科室的床位分配不合理,一些科室的床位比較充足,一部分科室床位比較欠缺[3],通過統計學分析出了床位合理分配數量,最終對各科室的床位分配進行了調整。
2.3患者情況根據統計學的計算結果顯示我院在患者的來源方面存在不合理的地方,比如下鄉、義診等活動的時間安排、醫務人員數量、活動范圍等方面欠缺妥當。根據統計結果我院對下鄉和義診活動進行了調整,增加了在住院患者分布少的地區開展義務扶貧、義診等活動,并結合著患者的情況和醫院的條件開設綠色通道,為患者提供優質服務,減輕患者的醫療經濟負擔,指導患者了解健康知識,免費為患者發放部分藥品等等,以此解決了部分患者因為經濟困難無法就醫的問題,同時也提升了患者對醫院的形象以及我院的知名度。
3討論
醫療資源的合理分配是提高醫院管理效率的重要手段。通過本次調查發現,在醫院的日常管理中由于各種原因使得醫療資源配置存在諸多問題,最主要的床位數量不夠、醫護人員不足等等,在醫療資源的分配上存在很多不合理的地方,比如資源分配不均勻等等,通過運用醫學統計學方法管理后這些問題得到有效的解決。由此說明,醫學統計方法管理是一種有效的管理方法,它能夠有效的改善醫護人員人手不足、醫療資源分配不均勻等問題,提高醫療資源管理和分配的有效性,因此醫院在日常工作開展和管理中應充分的運用這一管理技術,以此來提高醫院的管理水平、從而提高醫院和社會的效果,促進醫院乃至我國整個醫療衛生事業的發展與進步。
參考文獻
[1]鄧潔,張世慶,王永清.從醫學統計學角度評價醫療器械臨床試驗[J].透析與人工器官,2009,04:20-24.
關鍵詞:統計學;定量分析,應用;
一、定量分析的理解
定量分析方法這一概念出自分析化學,是指對化合物或混合物組分的相對比例進行測定。定量分析方法是自然科學的一種基本方法,從哲學的角度看,社會科學和自然科學在方法論上是相通的,科學的發現遵循相同的邏輯和過程,兩者有時可使用相同的手段,只要對人類社會的研究采用了科學的、可靠的、能夠重復和檢驗的方法,那么這種研究所獲得的知識也是科學。當代自然科學普遍使用實證、推理的研究方法。首先提出假說,然后嘗試用經驗性的證據來驗證。量化是自然科學研究的基本特征之一,而定量分析(qMantitative analysis)是分析一個被研究對象所包含成分的數量關系或所具備性質問的數量關系;也可以對幾個對象的某些性質、特征、相互聯系從數量上進行分析比較,研究的結果也用“數量”加以描述。
二、定量資料分析的方法的應用
1、國防方面 在國防經濟學研究中,將軍事學、經濟學、系統科學,現代數學、統計學和計算機技術結合起來,共同研究國防經濟現象的數量表現。而運用統計學中定量分析方法,可使國防經濟的研究得到更準確和有效的定性結論,以化人們對國防經濟問題的認識,優化相關決策,促進國防經濟學的科學化和規范化。經濟學中阿羅不可能性定理是用數量化和形式化的分析方法得到定性結論的一個典型,它的理論意義和實際意義都很明顯。用系統聚類方法對國防經濟、軍事格局的研究也具有這樣的特點。對國防經濟問題進行認識、判斷和決策,依賴于對基本情況與基本規律的準確了解和對未來變化的可靠預測,這需要有實用和精密的理論,要求采用定量研究方法幫助提高理論的準確程度和實用程度。例如,國防經濟學家認為,一國國防經濟實力的強弱是決定一國地位的重要因素之一,這里的強弱應該是一個相對量。國防經濟實力的對比是更為重要的因素,而要對國家之間的國防經濟實力進行對比,就需要進行定量分析和比較。否則,這種比較就成為主觀的和無根據的東西。運用定量分析的方法還可以使國防經濟學科走向成熟,有利用開闊研究人員的視野和方法,拓寬國防經濟的研究領域。
2、醫學方面 定量資料是醫學科研及論文中涉及較廣的一類資料 ,其定義為測定每觀察單位某項指標的大小而獲得的資料 ,其變量值是定量的 ,正確合理地選用定量資料的分析方法關系到論文及科研成果的科學性與嚴謹性,可以使醫學更明確快速的發展,。
3、旅游方面 對旅游資源進行必要而準確的定量分析,不是可有可無,更不能隨心所欲(或者憑長官意志)。在整個社會所處于的市場經濟中,旅游文化市場是一個特殊的市場,它有著本身所固有的不以人的意志為轉移的活動規律。對現今社會,旅游資源的定位分析是從客觀方面所作出的價值判斷,而我們需要對他作出的定量分析,就是從主觀方面的一種價格定位,也就是可以進入旅游市場的文化產品作出明確的、可以浮動的價格審定。通過定量資料分析,得出具有主導性的清晰、明確的認知之后,才能根據結果發掘出更好更有潛力的旅游資源。
4、市場營銷方面 為順應市場競爭形勢的改變,越來越多的企業認識到精確營銷的重要性,而實現精確營銷目標的前提是對市場做出精準的認識和判斷,因此市場研究也就越來越為現代企業所依賴。統計分析是認識事物的重要工具,一旦有效地運用于市場營銷就會為營銷決策者提供精準指導。因此,有效的將定量資料分析運用到市場營銷中并分析得出準確清晰的分析判斷,是順應現代市場形勢變化的必要條件。
5、教學方面 隨著我國經濟、政治、文化等各方面改革的深入展,高等教育在社會中的作用日益突出,高教研究逐步受到重視。但高等教育學是一門實踐性很強的學科,光有理論還不足以學有所用同時還要有教育實踐。高等教育研究采用多學科的研究方法就是把多種學科領域中的基本理論和方法作為工具來分析和表述在教育理論和實踐中的問題。將統計學的相關理論應用在高等教育中的一個比較特殊的教學實踐中,用定性研究與定量研究相結合的方法來探討差異素質學生的教育,為如何因材施教提供方便的方法。
6、市場服務方面 服務行業的質量提升涉及方方面面,量化指標是改進工作中的基礎組成部分,對服務時限的控制又是其中的重要一環,因為在業內人士中流傳著一句諺語:遲到的服務就像是雨過送傘。養成以客戶為導向、以數據分析為手段的理念對我們尋找影響服務過程質量的關鍵因素來說意義深遠。市場經濟下,市場競爭實際上是人才的競爭。通過定量分析數據得出加強專業人才的教育和培養的方式,為服務業的發展提供智力資源,建立完善的人才培養和引進機制,大力培養復合型人才,努力提高其綜合素質,提高服務業的經營管理水平。
7、投資與能源消耗方面 改革開放至今,我國經濟取得了巨大成就,但粗放型的增長方式造成了高投入、高消耗、低能源利用率、低產出的現象。國家提倡節能減排,必然會要求對能源的需求量下降,從而會放緩經濟的增長速度。通過利用定量資料的分析,可以對我國GDP與能源消耗、投資長期均衡和短期調整狀況進行實證分析,為我國能源政策的制定提供指導,實現節能降耗與經濟增長的雙贏。
參考文獻:
[1]鄭學詳李劍華.軍事經濟研究方法[M].解放軍出版社,2007.
[2]庫桂生. 沈志華.國防經濟學[M].北京:國防大學出版社.
[3]孫振球,徐勇勇.醫學統計學[M].北京:人民衛生出版社,2002.3.
[4]潘懋元.中國高等教育研究的歷史與未來(M).中國地質大學學報(社會科學版),2006(9).
[5]潘懋元.多學科觀點的高等教育研究.上海:上海教育出版社,2001.
【關鍵詞】膳食模式;統計分析;心血管疾病
0 前言
膳食因素與心血管疾病發病風險存在密切相關性。迄今為止,針對一種或幾種營養素,或某種食物的攝入量與心血管疾病主要危險因素的相關性,已經開展大量研究。然而,人們吃的不是獨立的營養素,而是含有多種營養素的多種食物,營養素之間存在復雜的相互作用。因此,針對單一營養素或食物的分析可能存在概念及方法上的局限[1]。
膳食模式分析是將所有食物、營養素作為一個整體進行研究,更接近真實的攝入情況,因此也更有利于對營養相關性疾病的發病風險進行評價。
膳食模式統計學分析方法:
膳食模式不能直接測量,因此,研究人員必須使用相應的統計學方法對收集到的飲食數據進行分析,進而對人群膳食模式予以劃分。膳食模式研究方法不斷發展,目前,常用方法有三類:先驗法、后驗法,以及二者的綜合運用。
1)先驗法
先驗法是以現有的膳食指南或其他科學飲食建議為基礎,通過將個體的飲食與之比較進行評分,主要包括膳食指數法。常見有:美國農業部門提出的與食物指南金字塔和膳食指南相配套的健康飲食指數(Healthy Eating Index, HEI)[2],Patterson R.E.等以膳食推薦量為基礎建立的膳食質量指數(Diet Quality Index, DQI)[3],之后逐步修訂發展的修訂膳食質量指數(Diet Quality Index Revised, DQI-R)[4]、國際膳食質量指數(Diet Quality Index-International, DQI-I)、中國膳食質量指數(INFH-UNC-CH DQI),何宇納等以中國居民膳食指南及平衡膳食寶塔中各類食物推薦量為依據建立的中國膳食平衡指數(Diet Baiance Index, DBI)[5],亞太地區食物與營養網絡專家委員會提出的理想膳食模式評分法(Desirable Dietary Pattern, DDP)[6]。
2)后驗法
后驗法是以膳食調查數據為基礎,運用統計方法確定膳食模式種類,包括因子分析、聚類分析和潛類別分析等。
因子分析是一種多變量統計分析方法,該方法利用食物頻率問卷、膳食日記等調查資料提煉出潛在的維度,即因子/膳食模式。然后計算每一因子/膳食模式的得分,進而利用相關分析或回歸分析研究膳食模式與營養相關性疾病的關系。
聚類分析也是一種多變量統計分析方法。與因子分析不同,聚類分析從食物使用頻率、供能比、食物攝入量等角度將被調查者分為不同的亞組(類),之后再對不同亞組的特征進行分析。
潛在類別分析是以模型為基礎的聚類方法,其目的在于利用潛在類別解釋食物攝入變量之間的復雜關聯。
3)先驗法和后驗法的綜合運用
綜合運用先驗法和后驗法,主要包括降秩回歸法和偏最小二乘回歸法,既利用了先驗信息,又基于當前的研究,綜合了先驗法和后驗法的優點。
降秩回歸是分析膳食模式的一種新方法,類似于因子分析。這種方法是通過建立食物攝入變量的線性函數解釋反應變量(如營養素、生物標志物等)的變異,用降秩回歸分析法得到的膳食模式可以更好地闡述疾病病因中膳食的重要性[7]。
偏最小二乘回歸法是介于主成分分析和降秩回歸之間的一個折中方法,通過建立有預測能力的回歸模型解釋營養素或生物標志物的變異。
1 膳食模式與心血管疾病危險因素相關性研究
早在20世紀80年代初,發達國家就已經開始膳食模式分析。Jean M Kerver等人對美國全國健康與營養調查(NHANES)的數據進行分析,得到西方膳食、美國健康膳食、加州型等膳食模式,發現以紅肉及肉制品、高脂奶制品、雞蛋等為主的西方膳食模式與血清C反應蛋白、血清胰島素、糖化血紅蛋白等心血管疾病生物標志物濃度成正相關,而與葉酸濃度成負相關,說明西方膳食模式是心血管疾病的危險因素。
哈佛大學的Frank B.Hu等人[8]對44875名男性進行了為期8年的隊列研究“醫務人員隨訪研究”,得到兩種主要膳食模式:精明膳食模式(以大量的蔬菜水果、豆類、全谷類、魚類、家禽類為主)和西方膳食模式(以大量的紅肉及肉制品、精細谷物、糖果和糕點、油炸薯片、高脂奶類為主)。精明膳食模式得分與冠心病發病率的五分位相對危險度由高到低分別為1.0、0.87、0.79、0.75、0.70;而西方膳食模式得分與冠心病發病率的五分位相對危險度由低到高分別為:1.0、1.21、1.36、1.40、1.64。
美國國立肺血液研究所主持的大型多中心試驗DASH試驗是近年來領域內非常著名的研究[9]。受試者分別使用典型美國飲食、典型美國飲食但增加水果和蔬菜份量、DASH飲食。在每日總熱量相同的情況下,典型美國飲食富含脂肪(特別是飽和脂肪)和膽固醇,缺少水果和蔬菜。DASH飲食組則強調增加水果、蔬菜和低脂奶制品的比例,而減少肉類、飽和脂肪和含糖飲料攝入。試驗發現,與對照組相比,第二組和DASH飲食組都成功地降低了受試者的血壓,且DASH飲食在功效上更勝一籌。
中國人群膳食模式與心血管疾病危險因素相關性研究并不多。現有的膳食模式研究中,研究者更多地對中國人群膳食結構進行分析,評價總體膳食質量,或對不同時期、不同種族、不同社會經濟狀況人群的膳食質量進行比較。如何宇納等[10]應用DBI綜合評價中國18~59歲成年人的膳食質量。結果表明:中國居民的膳食狀況以攝入不足為主,同時也存在攝入過量的問題。城鄉間人群的膳食質量存在一定的差異,農村居民攝入不足和攝入過量的程度都大于城市。Stookey J.D.等[11]應用中國DQI對1991年中國健康營養調查中的7450名成年人進行膳食質量評價。結果表明,樣本人群膳食質量存在的最大問題是鈉的攝入量高,鈣、蔬菜和水果攝入量低,食物多樣性差;且中國DQI總分與食物及營養素攝入、城鄉、收入及體重狀況均具有相關性。另外,有研究者應用因子分析得出3種膳食模式,并與4種慢性?。[瘤、糖尿病、高血壓、心血管疾?。┑幕疾★L險進行相關性分析,結論是慢性病患者更有可能食用蔬菜類為主的膳食,而不是水果類或肉類為主的膳食[12]。也有研究者采用主成分分析法提煉出肥胖與高血壓患者的主要食物種類[13],但并沒有對膳食與肥胖或高血壓患病風險的相關性作進一步的研究。
2 結語
膳食是一種復雜的暴露變量,需要從不同角度考察膳食與心血管疾病危險因素的關系。膳食評價方法從最初的營養素、食物組單一指標,到營養素和食物組的簡單組合,再到綜合考慮膳食攝入的充足、適量、多樣性以及平衡,已從不同角度反映了人群和個體的膳食質量及存在的問題,進而與心血管疾病危險因素相聯系。
目前,中國在膳食模式方面的研究數量有限,心血管疾病危險因素與膳食模式相關性方面的探索也為數不多。因此,研究者應廣泛借鑒國外經驗,創建并發展適合中國人群的膳食模式研究方法,并在心血管疾病危險因素與膳食模式相關性方面深入探究。
【參考文獻】
[1]Hu FB. Dietary pattern analysis: a new direction in nutritional epidemiology [J]. Current Opinion in Lipidology,2002;13(1):3-9.
[2]Kennedy ET, Ohls J, Carlson S, Fleming K. The Healthy Eating Index - Design and Applications[J]. Journal of the American Dietetic Association,1995;95(10):1103-1108.
[3]Patterson RE, Haines PS, Popkin BM. Diet Quality Index-Capturing a Multidimensional Behavior[J]. Journal of the American Dietetic Association,1994;94(1):57-64.
[4]Haines PS, Siega-Riz AM, Popkin BM. The Diet Quality Index Revised: A Measurement Instrument for Populations[J].Journal of the American Dietetic Association,1999;99(6):697-704.
[5]何宇納, 翟鳳英, 葛可佑. 建立中國膳食平衡指數[J].衛生研究,2005;34(2):208-211.
[6]李丹. 理想膳食模式(Ddp):介紹一種評價膳食[J].國外醫學:衛生學分冊,1992;19(5):282-285.
[7]Tucker KL, Dietary patterns, approaches, and multicultural perspective [J]. Applied Physiology, Nutrition, and Metabolism,2010,35(2):211-218.
[8]Hu FB, Rimm EB, Stampfer MJ, Ascherio A, Spiegelman D, Willett WC. Prospective study of major dietary patterns and risk of coronary heart disease in men [J]. American Journal of Clinical Nutrition,2000;72(4):912-921.
[9]Appel LJ, Moore TJ, Obarzanek E, et al. A Clinical Trial of the Effects of Dietary Patterns on Blood Pressure [J]. New England Journal of Medicine,1997;336(16):1117-1124.
[10]何宇納, 翟鳳英, 葛可佑.應用中國膳食平衡指數評價中國18~59歲人群的膳食質量[J].衛生研究, 2005;34(4):442-444.
[11]Stookey JD, Wang Y, Ge K, Lin H, Popkin BM. Measuring diet quality in China: the INFH-UNC-CH Diet Quality Index[J]. European Journal of Clinical Nutrition,2000;54(11):811-821.
關鍵詞:集成學習;特征提取;Adaboost M1;醫學圖像分類
中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2009)33-9515-03
The Design of Medical Image Classification Based on Ensemble Leaning
LIN Xiao-jia
(Faculty of Logistic and Information Management, Fujian Ineternational Business and Economics College,Fujzhou 350006,China)
Abstract: The paper proposes a medical image classification based on ensemble leaning.The system we proposing consists of a pre-processing phase, a feature extraction phase and a building the classifier phase. On the basis research of single feature, one new method is proposed one kind of medicine image classification new method that synthesized the multi-characteristic merge and the data mining technology. This method is through the introduction of data mining in the concept of Ensemble Learning,utilizing the Ensemble learning method to classify to the single characteristic the weak sorter to carry on the iterative training.
Key words: ensemble learning;the characteristic extraction;adaboost M1;medical image classification
隨著計算機醫學成像技術的發展,醫學影像越來越多樣化,醫學影像的應用也越來越廣泛,與此同時大量的醫學設備的應用使得醫學影像的數量也越來越多,大量的影像資料使醫院迷失在信息的海洋。利用數據挖掘技術可以有效的對醫學圖像進行組織和管理,合理有效的對其進行分類,從而使其更好的輔助日常的醫學診斷和醫學研究。
該文提出的方法是使用SVM分類器將整個特征空間分成諸多子空間;采用集成學習方法Adaboost方法對樣本進行多次抽樣,將Adaboost算法中的分類精度作為特征選擇的依據,選取出少量有利于分類的特征,同時將單特征訓練得到的弱分類器通過集成學習增強為強分類器。
1 系統的構成
整個系統的構成如圖1所示。
該系統主要包括訓練和分類兩個階段。在醫學圖像訓練階段,通過數據庫建立訓練集,對醫學圖像進行預處理,提取圖像顏色和紋理特征,創建訓練的弱分類器。對圖像特征進行選擇。分類階段進行的是待分類圖像的選擇特征的提取,利用訓練得到的強分類器進行分類,輸出分類結果。
2 圖像預處理
由于實際的醫學圖像數據因為操作的原因,存在不完整性、噪聲和不一致性性,不能直接在原始數據上進行數據提取,因此必須對醫學圖像進行預處理。數據清洗和數據的變換[1-2]都是經常用于圖像數據預處理技術上的。
圖像預處理的第一步就是圖像去噪。大部分的醫學圖像一般包含了大量有噪聲的背景:有的醫學圖像太暗,有的醫學圖案太亮,還有來自影像設備中電子元器件的隨即擾動。通過去噪處理后,可以去掉圖像中的大多數的背景信息和噪聲,增強圖像的特征,提高圖像的信噪比。針對醫學圖像來說,圖像本身有邊緣模糊的特性,通過去噪對醫學圖像進行復原,使之與原圖像逼近是存在比較大的困難的。因此本系統主要采取的去噪方法為濾波技術,該技術可以在最大限度保持信號不受損失的基礎上,盡可能過濾噪聲,提高圖像的可讀性,將醫學圖像中感興趣的特征(圖像的輪廓和邊緣等重要信息)有選擇的突出。
圖像預處理的第二步是圖像歸一化,基于圖像特征分類主要是對圖像特征進行匹配和區分的過程,但是通常情況下待檢圖像的圖庫中,圖像的大小尺寸并不完全相同,用戶所提供的分類例圖大小也不完全一樣的。在提取圖像特征(特別是空間分布特征)時,就有可能存在本身同類的圖像所計算出來的特征差別卻很大,而不屬于同一類的圖像由于尺度不同卻計算出了相似的特征,進而影響到分類的結果。為了防止這類情況的發生,本分類系統必須首先對圖像的尺度進行歸一化,即通過對圖像的縮放使得圖像具有同一尺度256×256,在同一尺度上提取圖像特征,從而消除尺度影響,又能夠保證圖像的整體灰度不變性。通過對大尺度的圖像進行尺度歸一化之后,按比例進行了縮小,降低了圖像特征提取時的計算量,提高了分類速度。
3 基于集成學習方法的特征選擇和分類
3.1 集成學習方法
集成學習(Ensemble Learning)是一種新的用來組合的學習器的方法。其主要思想[3]是:通過某種組合方法把一些學習器組合起來,使得集成后的學習器能夠表現出比單個學習器更好的性能。狹義的說,集成學習是指利用多個同質的學習器對同一個問題進行學習,這里的“同質”是指所使用的學習器屬于同一種類型,例如所有的學習器都是決策樹、都是神經網絡等等。廣義的來說,只要是使用多個學習器來解決問題,就是集成學習[4]。
集成學習從萌芽階段發展到現在,很多研究者提出了不同的算法。其中研究最深入,最具影響力,應用最廣泛的就要算Boosting算法了。在眾多Boosting算法中,AdaBoost是Boosting家族中的基礎算法,也是Boosting家族最具代表性的算法,之后出現的Boosting家族中的擴展算法都是在AdaBoost算法的基礎上發展而來的,對AdaBoost的分析也適用于其它的Boosting方法。因此下面我們以AdaBoost M1算法為例,進行描述。
AdaBoost M1算法用于解決多類單標簽問題。每個待分類樣本只能屬于多個類別中的單個類。AdaBoost M1的基本思想是:首先給定任意一個弱學習算法和訓練集(x1,y1),(x2,y2),…,(xm,ym),yi在分類問題中是一個帶類別標志的集合,yi∈Y={1,…,K}。初始化的時候,對每個訓練例賦予的權重都相同為1/m。接著,調用弱學習算法對訓練集進行T次的迭代訓練,每次訓練后,按照訓練結果更新訓練集上的分布,對于訓練失敗的訓練示例賦予教大的權重,也就是在下一次迭代訓練的時候,更加關注集中對這些失敗的訓練例進行訓練。通過這樣的T次迭代訓練,得到一個預測函數序列h1,h2,…,ht,其中ht也有一個權重,預測效果好的預測函數的權重較大,預測效果差的預測函數的權重較小。經過T次迭帶后的最終預測函數H采用有權重的投票方式產生。
3.2 特征選擇和分類
本系統利用訓練樣本的分類屬性,采用Adaboost M1算法同時,對算法進行改進,使算法同時具有進行特征分類性能的評價(特征選擇)和SVM分類器的增強的功能:對樣本進行多次抽樣,將分類精度作為特征對分類性能的判定依據,進行有效特征選擇,選取出少量對分類作用較大的特征,同時將單特征訓練得到的弱分類器增強為強分類器,使分類器具有較好的分類精度和泛化能力。具體算法思想如下:
1) 在Adaboost M1算法每次迭帶訓練時候,賦予每個訓練例的分配權重 Dt(i)(t表示迭代次數,i表示訓練例標號),同時也表明它被分類器選入新訓練子集的概率。如果某個樣本已經被準確的分類,那么在構造下一個訓練集中,它所占的比重概率就會被降低;反之,如果某個樣本沒有被正確分類,那么它所占的比重就會得到提高。通過這樣的方式,Adaboost M1算法就能更加重視那些較困難、更富信息的樣本上。
2) 針對Adaboost M1這個特點,我們在選入的訓練集上,選擇SVM作為弱學習機,針對每個特征維向量進行訓練,產生弱分類器,并且計算分類精度,用來衡量該弱分類器對分類的作用程度,精度大的弱分類器表明該特征維向量的分類性能較好,有利于作為有效的分類特征,被選入作為分類特征,經過多次迭代可以得到大部分對分類作用較高的特征,最終增強得到一個強分類器。
改進的Adaboost M1進行特征選擇以及SVM分類器增強的算法步驟如下:
輸入:訓練集 (x1,y1),(x2,y2), …,(xm,ym) ,其中標簽yi ∈Y={1, …,k}
特征維向量集{S}
弱學習算法SVM
迭帶訓練的次數T
初始化:對于i=1,2,…,D1(i)=1/m, Do For t=1,2,…,T //其中T為迭代訓練的次數,m為訓練樣本數。
步驟1 弱分類器學習
根據選擇權重Dt(i)進行采樣,獲得第t次迭代樣本集,選取特征子集,學習重采樣后的樣本集得到弱分類器集合Hrt ,其中Srt是特征子集集合,表示第t次迭代的每個特征維度;Srt是弱分類器集合,是根據Hrt單特征訓練出的弱分類規則,r表示特征維度標簽號,t表示迭代次數。
步驟2 計算分類精度,選擇特征
計算弱分類器在樣本集上的誤差 在此作為特征子集Srt 有效性的判據,誤差越小則此特征子集作用越大,選取誤差最小(εt=min{εrt})的對應的分類器為Ht與有效特征向量Srt計算本次迭代得到的分類器貢獻權值βt=εt/(1-εt)。
步驟3 更新權重
其中,βt為每次迭代的分類器貢獻權值,值由βt=εt/(1-εt)來確定;Dt(i)為每個訓練例的分配權重,Zt為標準化常量。
輸出:有效特征子集Sr
增強分類器
通過改進的Adaboost M1算法可以得到所選擇的特征子集Sr以及增強的分類器Hx。
分類時,只要將待分類醫學圖像根據有效特征子集Sr進行特征提取,輸入增強的分類器集 Hx中,就可得到分類的結果。
4 實驗結果及結論
本實驗所采用的是醫學圖像中的CT、MRI和DDR圖像,根據醫學圖像的功能和用途,我們將這些醫學圖像分為頭部(包括中樞神經和頭頸五官)、胸部(包括呼吸系統、循環系統)、腹部(包括消化系統)、骨盆(包括泌尿系統)和其他等五大類標簽,每類標簽60幅(由于CT應用比較廣泛,所以選用CT圖像40幅,MRI和DDR各20幅),共計300幅圖像構成圖像庫。在測試集和訓練集的選擇上,采用10折交叉驗證的方法。通過訓練集最終選取了36維特征向量中的分類性能較高的12維(詳細如表1所示)。
分類性能采用敏感度(sensitivity)、特異度(specificity)以及分類精度(precision)三個指標率來衡量:敏感度也稱真正識別率,即正確識別該類元組的百分比;特異度是真負率,即正確拒絕不屬于該類元組的百分比;而精度就來標記實際屬于該類的元組在已分配到該類的元組總數的百分比,表2是本實驗的分類結果。
從表2中可以看出,本實驗醫學圖像分類器算法的敏感度、特異性和分類精度都較高,分類識別率和精度平均在83%左右。
分類系統的速度主要取決于特征的提取以及進行分類的運算量。如果將所有特征都運用于分類的話,由于有些特征向量維度對分類貢獻不高,對分類效率沒有明顯的提高,并且也大大增加了特征提取階段的時間負擔。在本系統中僅僅選擇了不到1/3的特征,去除了部分對分類效率貢獻不高的特征,因此在特征提取階段速度大大提高了,而且在分類階段也因為只在有效特征中進行提取分類,速度也有較大提高,表3列出了在 Inter Core Duo processor T2450 2.0GHz、1G DDR內存、VC++6.0環境下本分類系統與其他分類平均分類精度的比較。
本方法比最常見的綜合特征分類法在特征提取分類階段速度上有所提高,但是比起單個特征提取,速度還是比較慢的。但是從表3正確率相比,準確率還是蠻高的,相對的犧牲時間還是值得的。
參考文獻:
[1] Maria-Luiza Antonie,Osmar R.Z aiane and Alexandru Coman,Application of Data Mining Techniques for Medical Image[C],Proceedings of the second international workshop on Multimedia Data Mining(MDM/KDD’2001),in conjunction with ACM SIGKDD conference.
[2] Osmar R.Z aiane,Maria-Luiza Antonie and Alexandru Coman,Mammography Classification by Association Rule-based Clasifier[C], MDM/KDD2002:International Workshop on Multimedia Data Mining(with ACM SIGKDD 2002).
[3] Zhou Z-H,Wu J-X,Tang W,Chen bining regression estimators:GA-based selective neural network ensemble.International Joural of Computational Intelligence and Applications,2001,1(4):341-356.
[4] Zhou Z-H,Wu J-X,Tang W.Ensembling neural networks:many could be better than all.Artificial Intelligence,2002,137(1-2):239-263
[5] 夏順仁,莫偉榮,王小英,嚴勇. 基于特征融合和相關反饋的醫學圖像檢索技術[J].航天醫學與醫學工程,2004,17(231):429-433.