時間:2023-12-16 09:31:19
序論:在您撰寫統計學變量的分類時,參考他人的優秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發您的創作熱情,引導您走向新的創作高度。
近年來,用戶研究已經成為產品設計界的重要研究手段,在產品的進入期、成長期、成熟期甚至衰退期,用戶研究都起著至關重要的作用,它可以幫助產品概念的具體化、合理化地符合用戶需求,提品功能定義的依據,等等。歸根結底,它起到了從用戶的需求域(感性描述)到設計的功能域(物理要素)的轉換作用,最終幫助設計者獲得成功產品所需的要素。
在用戶研究的領域里,我們已經有了較為科學的方法來獲得需求域中的各類信息數據,而如何將這些信息數據轉換成為我們所需要的設計要素則成為研究的重點和難點。用戶的需求來源于人,而產品的功能賦之予物,我們需要找到一種方法來發掘這主客體之間的聯系,定性定量分析毫無疑問是解決這一問題的必要方法。
二、統計學:定量與定性研究結合
與其他產品設計的單一研究方法不同,在用戶研究中,定性與定量分析一般而言是相輔相成的,這樣做很好地結合了兩種分析各自的長處。定量分析能夠發現某個存在的現象,具有很好的說服力和可信性,是對事物“量”的分析,主要通過數據收集和分析來完成。定性研究則可以發掘隱藏在現象底下的規律及原因,具有能夠抓住本質的深刻性和高效性,是對事物“質”的分析,主要通過常識、感覺、經驗等主觀因素來參與分析。
在用戶研究中可以直接獲取的數據很少,因此定量分析沒有施展的空間,并且對于一些感性問題,例如用戶的需求、用戶的感覺等同樣也無能為力。定性分析則受主觀因素影響較大,具有不確定性的特點。如何能夠很好地發揮定量分析的可信度與定性分析的深刻度是我們所要解決的下一個問題,這里引入統計學的分析方法,將定量與定性分析結合起來。
三、用戶研究中的統計學
統計學廣泛運用于生物、化學、心理學、社會學、經濟學等諸多領域。它被用來了解與測量系統變異性,程序控制,對資料作出結論,并且完成資料取向的決策。而它的這些用途特點非常適合集心理學、社會學、人類學等多門學科交融的用戶研究,因此,我們可以通過引入統計學的方法,來對用戶研究中獲取的信息進行定量和定性分析,從而完成需求域到功能域的轉化。
根據統計學的研究特點,我們將其在用戶研究中的運用步驟分為信息獲取、信息處理、數據分析、數據校驗四個步驟。
1.信息獲取
用戶研究方法有很多,現大多已趨于成熟。我們在確定研究目的與目標的前提下,有意識地選擇用戶研究的方法,并且明確其輸出的數據及形式,為今后的分析做準備。在用戶研究中我們可以通過背景資料收集、問卷調查、用戶觀察、用戶訪談、用戶角色和用戶情境等方法獲得大量的文字數據、圖像數據、問卷數據、實驗數據和語音數據,這些數據都可以通過進一步的處理,轉換成統計學中可以運用的數據形式。為了更好地進行下一步的分析研究,要根據用戶研究對象的特點將這些信息分為用戶基本數據、用戶行為數據和用戶主觀數據。
基本數據主要是指對用戶的性別、年齡、職業、收入、教育、地區、家庭結構、生活方式等量化后的數據;行為數據是指用戶與產品的交互,即對于產品的使用及體驗通過觀察測試等方法提取的數據;主觀數據是指用戶對于產品的滿意度、情緒反應、審美反應、生活態度等通過問卷訪談等方式獲得的數據。由此我們便獲得了計算所需的數據。
2.信息處理
上面我們已經論述了信息獲取的方法及信息的分類和特點,但是這些信息的形式如文字、圖像、問卷大多都不能直接用于統計學的分析,因此我們要對信息進行處理,也就是信息的量化。
(1)用戶基本數據量化
基本數據都屬于某種“品質”或“屬性”,它們的量化方法可以使用取值為“1”或“0”的人工變量來表示是否存在,也就是對質的因素的判斷。如“1”表示已婚,“0”表示未婚。同樣有時本身是“數量”因素也可以轉化成“質”因素,如“1”表示年收入5萬到10萬,“0”表示年收入5萬以下。
(2)用戶行為數據量化
用戶行為數據可以通過試驗器械的輔助,有計劃的觀察與測試來獲得。主要是行為過程中存在的與衡量目標完成情況相關的變量。這些具體數據的情況與目標有著直接關系,通??梢灾苯荧@得具體數值。如時間、頻率、數量、周期、步驟等。
(3)用戶主觀數據量化
用戶主觀數據主要通過對用戶的問卷與訪談得到,是從用戶的主觀因素出發對用戶體驗進行量化。在這里,我們可以用數值來表示主觀因素的程度,通過這種方法來量化這些主觀的、抽象的、感性的信息。如滿意程度可以由-3,-2,-1,0,1,2,3這7個數值表示,-3為最不滿意,3為最滿意。同理抽象感性詞匯可以選擇一對反義詞作為兩極,由負值到正值表示符合的程度。如傳統和現代、圓潤和尖銳等。
此外,為了消除數據計量單位不同的影響,便于數據的直接比較,要對數據進行標準化——使數據矩陣式中每列數據的平均值為0,方差為1;或者規格化——將每列的最大數據變為1,最小數據變為0,其余數據取值在0~1之間。
3.數據分析
在對數據進行必要的處理以后我們就要開始進行統計分析。為了便于介紹統計方法,我們先將處理好的數據分類。在統計學中根據變量數學性質的由低到高可將其劃分為:定類數據、定序數據、定距數據和定比數據。定比數據使用較少,此處略。定類數據是一個分類體系,通常將研究對象屬性分類后編號,其只能測量類別差。如華中、華北、華東等。定序數據多了類別間順序等級的信息,可以測量次序差。如幼年、少年、青年、中年、壯年、老年等。定距數據不僅可以測量差別,還可以測算距離,如10秒、20秒、30秒等。
下面介紹在設計領域常會遇到的變量類型之間的關系測量以及相對應的方法類別,具體公式與計算方法可以參看相關統計學書目。
(1)雙變量統計
兩個變量之間關系的探討在用戶研究中是重要的內容。相關分析是解決這個問題最為常用的統計學方法。判斷兩個變量之間的關系主要從它們的相關程度、相關正負、相關類型等方面來看,在通常情況下為線性相關,可從相關系數中看出兩個變量之間的關系。
①兩個定類變量以及定類與定序變量之間的關系可使用相關分析中的λ和τy測量法。λ測量法可以是不分變量與自變量的對稱形式。如丈夫購車標準與妻子購車標準之間的關系。τy測量法要求具有自變量與因變量之別,如性別與購車標準之間的關系。定類與定序變量關系也可用此兩種系數,如收入水平與購車標準之間的關系。
②兩個定序變量之間的關系可以使用Gamma系數和dY系數來表示。例如同等收入水平年齡與購車價格之間的關系。
③定類與定距、定序與定距可采用相關比率測量法。如性別與某手機功能操作次數之間的關系或是年齡與后者之間的關系。除此之外,也可以使用單因素方差分析。
變量之間除相關關系還可以用函數關系來表示,線性回歸分析可以測量變量之間的線性關系,它是在研究過程中將一些因素作為所控制的變量(自變量),而另一些隨機變量作為它們的因變量來進行分析的。一元線性回歸可以用來解決雙變量統計問題。
(2)多變量統計
在設計領域中研究的問題影響因素往往較為復雜,在雙變量統計不能滿足要求的時候我們就要用到多變量統計方法,主要有多元線性回歸分析,Logistic回歸分析、聚類分析、主成分分析、因子分析等。
①多元線性回歸分析。研究在線性相關條件下,兩個和兩個以上自變量對一個因變量的數量變化關系,稱為多元線性回歸分析,表現這一數量關系的數學公式稱為多元線性回歸模型。它解決的問題是通過抽樣調查的數據,確定自變量和因變量之間關系的密切程度;確定多個自變量對應變量的共同影響,比較各個自變量對因變量影響的大??;確定因變量和自變量之間的關系表達式,即回歸方程式。如臺燈外形表現現代感程度分別與其燈罩、燈頸、燈座造型、材質、色彩的關系,這種方法在感性工學研究中經常使用。
②Logistic回歸分析。線性回歸模型的一個局限性是要求因變量是定量變量(定距變量、定比變量),而不能是定性變量(定序變量、定類變量)。但是在許多實際問題中,經常出現因變量是定性變量(分類變量)的情況。Logistic回歸分析就是用于處理分類因變量的統計分析方法。其因變量只取兩個值,表示一種決策、一種結果的兩種可能性。如消費者是否購買產品與產品性能、外觀、價格、
品牌等因素之間的關系。
③聚類分析。聚類分析是研究“物以類聚”的一種多元統計分析方法。聚類分析的基本思想是根據對象間的相關程度進行類別的聚合。例如可以通過測試者對于較多產品的評價運用聚類分析將產品分別歸類。又如通過對消費者生活形態的研究將其分類,有針對性地進行產品開發。聚類分析可用樹藝術與設計ˉ形圖來表示結果。
④主成分分析。把多個變量(指標)化為少數幾個綜合變量(綜合指標),而這幾個綜合變量可以反映原來多個變量的大部分信息。為了使這些綜合變量所含的信息互不重疊,應要求它們之間互不相關。例如在評價一個產品設計時,往往有很多因素,通過主成分分析可以用少數幾個綜合因素對其進行評價,減少工作量。
⑤因子分析。因子分析可以看成是主成分分析的一種推廣。它的基本目的是,找出隱藏在一組測量到的變量中的一些更基本的,但又無法直接測量到的隱性變量(愛好、態度、能力)去解釋顯在變量(設計成功與否、銷售量、點擊率)。例如從眾多人們顯在的生活習慣中找到人們選擇使用購買生活用品的潛在因子。這種方法可以應用在用戶研究中的生活方式研究之中。
4.數據檢驗
數據檢驗其實是貫穿整個計算過程中的,一些計算方法需要檢測數據是否適合做此類運算,如回歸分析的擬合優度檢驗,因子分析的KMO檢驗,而回歸分析可以用逆運算進行檢驗等。當然一般人都會認為數據是客觀而準確的,但是準確的數據之后,依賴分析師的常識、經驗和主觀判斷,來選擇和運用適合分析方法,并以嚴謹的研究態度來完成整個分析步驟。
Abstract: The variable is in a statistics basic category, but each kind of statistics teaching material is different to its definition, creates the understanding confusion; The author unified the teaching experience to carry on the thorough ponder to the variable concept, caused its better and better by the time.
關鍵詞:變量標志統計指標統計數據
Key words: Variable Symbol Statistical target Statistical data
作者簡介:魯瑜,女,1963年9月出生,講師。籍貫:安徽省桐城縣,出生地:河南省洛陽市。1986年洛陽大學計劃統計專業??飘厴I,1997年中南財經政法大學財務會計學本科畢業,2007年西安建筑科技大學工業工程碩士畢業。研究方向為統計核算、企業會計。
那么統計學中講的“變量”該如何理解呢?變量的概念是發展變化的,按發展變化的時序有以下幾種理解:第一、統計中的變量是指可變的數量標志;第二、變量是指可變的數量標志和全部統計指標;第三、變量是指可變的數量標志和可變的統計指標;第四、變量是說明現象某種可變特征的概念,更明確一點,即:變量包括可變的品質標志和可變的數量標志和可變的統計指標。普遍的認為第四種理解更符合客觀實際,筆者也贊同第四種理解。
一、統計中的變量是指可變的數量標志這種理解較狹隘,通過講解引入可變的品質標志也是變量,即“可變的標志”都應作變量看待。
一般變量的講解是這樣進行下去的:首先明確統計學中的幾個基本概念,三對六個:第一對是統計總體和總體單位,簡稱總體和單位;第二對是統計標志和統計指標,簡稱標志和指標;第三對是變異和變量??傮w是所研究對象的全體,是由具有某種共同性質的許多個體所構成的整體,構成總體的各個個別單位,簡稱單位,也稱個體,總體和單位的概念是隨著研究目的的不同而發生變化的;標志是說明單位特征的名稱,強調單位是標志的承擔著,指標是反映現象總體數量特征的概念或名稱和具體數值(指標名稱+指標數值構成完整的統計指標,但只有概念或名稱的指標是統計設計和統計理論中使用的指標概念),是綜合各單位的某一標志而得到的,通過對指標概念的理解,首先明確指標是說明總體的,其次明確指標都是用數值表示的,沒有不用數值表現的統計指標,這是指標和標志的區別之一,由于總體和單位之間存在著變換關系,標志和指標之間也會發生變換;變異和變量,我多年的教學經驗通常是通過對標志的分類講下去的,標志按在總體單位上的表現是否穩定可分為不變標志和可變標志,一個總體中,各個單位的某一標志的具體表現都相同的標志為不變標志(強調同質性),一個總體中,各個單位的某一標志的具體表現不都(盡)相同的標志為可變標志(強調變異性),如人口總體性別是可變標志,男性人口總體性別就是不變標志;可變標志在總體各個單位上具體表現上的差別就是變異,變異有品質變異和數量變異,如人口總體性別就是品質變異,年齡就是數量變異,數量變異也稱變量,即可變的數量標志稱為變量,變量的具體取值為變量值。很顯然,通過以上的講解,通常認為變量是指可變的數量標志,即第一種變量的概念。
這種理解,未免太過于狹隘。教師若以此思想去指導教學,難免會陷入不能自圓其說的境地。我們知道,一切總體單位都具有屬性特征和數量特征,統計學中將其稱為品質標志和數量標志。例如人口總體,這些特征可能是性別、民族、籍貫、文化程度,也可能是身高、體重、年齡、工齡等。對統計研究對象而言,無論其屬性特征還是數量特征,往往均具有可變性。并且一個具體的特征可能在一種場合是可變的,而在另一場合是不變的。例如,上述所說人口總體性別是可變標志,男性人口總體性別就是不變標志了??梢娦詣e這個品質標志有時也是可變的。推而廣之,品質標志也具有可變性。這樣,凡是“可變的標志”都應作變量看待。
然而,這只是對總體內部各單位的差異作靜態考察時的變量。如果僅僅把變量定義為“可變的標志”,那么可變的統計指標怎么解釋?它是否屬變量范疇呢?所以,還得對統計總體作考察。
二、變量是指可變的數量標志和全部統計指標這種理解也不準確,不是所有的統計指標都是變量,通過講解引入可變的統計指標才是變量,即只有“可變的統計指標”才應作變量看待。
統計有數量性、總體性、具體性和社會性的特點(《基礎統計》,梁前德主編,高等教育出版社,2000年8月第1版),由統計的具體性可知,統計所研究的社會經濟現象的數量方面是具體的量,是具體的社會經濟現象在具體時間、地點、條件下的數量表現、數量關系和數量界限。例如,甲公司2005年的銷售收入60億元就是一個統計指標,而且是具體的、唯一的數值。對于2005年的來講,銷售收入這個指標只有一個數字。因而并非所有的統計指標都是變量。但是若把甲公司2005年至2008年的銷售收入60萬元、69萬元、80萬元、84萬元依次排列,這時銷售收入就是一個變量??梢姡挥挟斖唤y計總體的同一指標在不同時間的指標數值形成數列時,統計指標才可能成為變量。
因此,從靜態上看,某總體的某一統計指標是常量,但把若干總體的同一指標放在一起,指標就變成變量了。例如,以洛陽市為總體時,2005年各公司銷售收入指標是各不相同的,它是一變量。從動態上看,我們常常使用時間數列來處理統計數據,時間數列中的指標數值往往隨時間變化而變化。如上,這種不斷變化的指標也是變量,前后不同的指標數值就是變量值。可見,統計指標也有可變與不變之分,因而,“可變的統計指標”才應看作變量。
上述第二種觀點是把全部統計指標視為變量了,但不是所有的統計指標都是變量,只有可變的統計指標才是變量,因而我認為是不妥的。第三種觀點倒是把可變的統計指標視為變量了,但未包括可變的品質標志因而我認為也是不妥的。第四種觀點我認為比較可取,但在文字表述上還可進一步具體化,由于說明現象某種特征的概念可以是標志(說明總體單位的),也可以是指標(說明總體的),因而我們不妨對變量作如下明確的定義:所有可變標志和可變的統計指標都是變量,即變量是說明現象某種可變特征的概念。
三、變量的分類:
(一)變量按具體表現不同分為分類變量(品質變量)和數值變量(數量變量)。
分類變量是用于說明事物所屬類別方面的可變特征的變量,分類變量具體表現為分類數據,它又可以分為定類變量和定序變量。定類變量是用于區分現象不同類別的變量,它的取值表現為定類數據(如產業部門)。定序變量是說明現象的有序類型的變量,它的取值表現為定序數據(如產品的質量等級)。數值變量是用于說明事物數值方面的可變特征的變量,數值變量具體表現為數值數據,按數值數據的性質不同它可以分為定距變量和定比變量。定距變量是用于測度事物次序之間的距離的變量,它的取值表現為定距數據(如考試分數)。定比變量是說明現象的比例數據的變量,它的取值表現為定比數據(如體重)。
(二)變量按所使用的測量尺度不同分為定類變量、定序變量、定距變量和定比變量。
四種變量的概念已如上所述。四種變量對事物的反映是由低級到高級,由粗略到精確逐步遞進的,高級變量能轉化為低級變量,但不能反過來。如可將考試成績百分制轉化為五分制,但不能反過來。另外,四種變量適合于不同的統計計算方法。定類變量適合計算頻數、頻率、x2檢驗、列聯相關系數等;定序變量適合計算中位數、四分位差、等級相關、非參數檢驗等;定距變量適合計算算術平均數、方差、積差相關、復相關、參數檢驗等;定比變量適合所有的統計計算方法。幾乎所有的物理量和絕大多數經濟量都屬于定比變量。因此,不僅可以計算總量指標反映它們的總規模、總水平,還可以計算相對指標和平均指標反映它們的相對水平和一般水平。
(三)數值變量按變量取值是否連續分為連續型變量和離散型變量。
連續型變量是指可取無窮多個值,其取值是連續不斷的,不能一一列舉。它是用測量或計算的方法取得的數據,如溫度、身高等。離散型變量是指只能取有限個值,而且其取值都是從整數位數斷開,可一一列舉。它只能用計數的方法取得的數據,如企業數、人數等。
(四)數值變量按性質不同分為確定性變量和隨機變量。
確定性變量是具有某種或某些起決定性作用的因素致使其沿著一定的方向呈上升、下降或水平變動的變量,如我國國民經濟總是不斷發展的,具體表現為各種經濟指標數值上升或下降(如人均收入和單位能耗),雖然也有些波動,但變化的方向和趨勢是不可改變的,這些經濟指標就是確定性變量。隨機變量是指受多種方向和作用大小都不相同的隨機因素影響,致使其變動無確定方向即呈隨機變動的變量,如,在正常情況下某種機械產品的零件尺寸就是一個隨機變量。
總之,統計學是一門邏輯嚴密的傳統學科體系,作為統計學中幾個基本概念之一的變量應有一個公認的正確的解釋。這對今后統計學理論的研究發展都是很重要的。
參考文獻:
[1]王軍虎主編.統計學基礎[M].武漢:武漢理工大學出版社,2007年7月:10
[2]梁前德主編.基礎統計[M].北京:高等教育出版社,2000年8月:6~9
[3]高凱平.關于社會經濟統計學原理中變量概念的思考[J].山西財政稅務專科學校學報.1999(6)
【摘要】 目的 探討累積比數logit模型在有序分類資料中的正確應用。方法 利用在陜西某地開展的一項隊列研究數據,分別采用累積比數logit模型和偏比例優勢模型進行分析,對二者的結果進行比較。結果 在資料不符合比例優勢假定的情況下,直接采用累積比數logit模型不一定合適。結論 累積比數logit模型的應用有一定的條件限制,當不符合其應用條件時,最好采用其他相應方法。
【關鍵詞】 累積比數logit模型; 比例優勢假定; 偏比例優勢模型
Abstract: Objective To investigate the correct application of cumulative odds logit model on the ordinal data. Methods The cumulative odds logit model and partial proportional odds model were used for the data from a cohort study in Shaanxi Province, and the results were compared. Results The cumulative odds logit model might not be appropriate when the proportional odds assumption was violated. Conclusion The application of cumulative odds logit model is dependent on certain conditions. It is advisable to adopt other methods when the condition of cumulative odds logit model were violated.
Key words: cumulative odds logit model; proportional odds assumption; partial proportional odds model
累積比數logit模型是二分類logit模型的擴展[1-2],主要用于處理反應變量為有序分類變量的資料。該模型對資料要求不嚴,解釋變量既可以是連續型變量,也可以是無序分類變量或有序分類變量。Amstrong等[3]經模擬實驗發現,對于多分類有序反應資料,如果采用一般的二分類logit模型而不是累積比數logit模型,則只能獲得50%~70%的檢驗效能。說明在處理有序分類數據方面,累積比數logit模型要優于二分類logit模型。但目前對該模型的使用條件、擬合優度等內容極少有探討。最近幾年已有不少文章對二分類logit模型的正確應用進行了探討[4-8],而對累積比數logit模型的研究卻不多見。本文通過實例對累積比數logit模型的使用條件和擬合優度評價進行了探討,為其正確應用提供借鑒。
1 材料和方法
1. 1 資料來源 資料來自于陜西某地開展的胃黏膜病變與幽門螺桿菌關系的隊列研究。為探討幽門螺桿菌與胃黏膜病變進展的關系,對400例淺表性胃炎患者檢測幽門螺桿菌感染狀態,將其分為感染陽性和陰性2組,同時調查了2組患者的吸煙、飲酒情況,并對所有患者進行隨訪。
1.2 胃黏膜病理診斷 用胃內鏡觀察胃黏膜病變,并在胃體大小彎、胃角、胃竇大小彎、前后壁各取胃黏膜活檢組織1塊。病理切片按照全國胃、十二指腸活檢、病理診斷標準進行診斷。每個受檢對象以最嚴重病變為第一診斷。病變嚴重程度由輕到重依次為淺表性胃炎(superficial gastritis, SG)、慢性萎縮性胃炎(chronic atrophic gastritis, CAG)、腸上皮化生(intestinal metaplasia, IM)和異型增生(dysplasia, DYS)。
1.3 統計學處理 本研究中的反應變量為病變的不同嚴重程度,為有序分類資料。分析方法分別采用累積比數logit模型和偏比例優勢模型進行擬合。數據分析采用SAS 8.1統計軟件。P
2 結 果
2.1 累積比數logit模型分析 病例隨訪5年后,共失訪26例,剩余的374例中,135例仍為正?;騍G,139例進展成為CAG,59例進展為IM,41例進展為DYS。多因素分析結果顯示,校正性別、年齡、吸煙、飲酒等因素后,幽門螺桿菌對胃黏膜進展的影響無統計學意義(χ2=2.7439,P=0.0976)。見表1。
對該資料的比例優勢假定條件進行檢驗,結果發現該資料不滿足比例優勢假定條件(χ2=38.85,P=0.0004),說明該資料采用累積比數logit模型分析可能并不合適。對模型的擬合優度進行分析,結果顯示,Deviance值和Pearson χ2值對應的P值均小于0.05,說明模型擬合欠佳。表1 累積比數logit模型的參數估計
2.2 偏比例優勢模型分析 偏比例優勢模型也是基于累積logit的一種方法,但是它放寬了比例優勢假定條件[9-11]。采用偏比例優勢模型分析結果顯示(表2),幽門螺桿菌對胃黏膜進展的影響有統計學意義(P=0.0113),這一結果與目前臨床和流行病學研究結果是一致的。而且從參數估計的標準誤來看,表2中的標準誤均小于表1中的標準誤。表2 偏比例優勢模型的參數估計
3 討 論
本次研究分別采用累積比數logit模型和偏比例優勢模型對同一組數據進行分析,結果發現,在數據違反比例優勢假定條件的情況下,2種模型擬合結果差別較大。累積比數logit模型結果顯示幽門螺桿菌對胃黏膜病變的影響無統計學意義,而偏比例優勢模型則表明幽門螺桿菌的影響有統計學意義。從統計學角度和實際角度綜合考慮,偏比例優勢模型的誤差更小,且結果更為符合實際,提示本研究數據采用累積比數logit模型不合理。
實際中應用累積比數logit模型時,主要注意的使用條件就是比例優勢假定條件,即自變量的回歸系數應與分割點k無關[12]。換句話說,無論從哪一點分類,對所有的累積logit,變量χk都有一個相同的βk估計。對于一個自變量χk而言,不同累積比數發生比的回歸線相互平行,只是截距參數有所差別。以前有研究認為,累積比數logit模型對這一條件并不敏感,但本次研究發現,當這一基本假設條件不滿足時,結果的檢驗效率會降低,容易產生假陰性錯誤。
對于累積比數logit模型的擬合效果,可通過Pearson χ2和Deviance值來判斷。Pearson χ2通過比較模型預測的和觀測的事件發生和不發生的頻數檢驗模型成立的假設,其自由度為自變量不同水平的組合數目與參數數目之差,χ2統計量小就意味著預測值與觀測值之間沒有顯著性差別,可認為模型較好地擬合了數據。Deviance通常稱為偏差,它是通過似然函數來測量所設模型與飽和模型之間的差異程度。當Deviance值較小時,可認為所設模型與飽和模型之間的差異小,即所設模型擬合較好。這2個指標值在多數情況下是一致的,如果存在不一致,一般認為,當用最大似然值擬合logit模型時,Deviance值比Pearson χ2值更適用于測量擬合優度[13]。需注意的是,當模型中含有連續變量時,Pearson χ2和Deviance指標將不再近似于χ2分布,從而也不再適用于擬合優度評價。Bender等[14]建議,如果累積比數logit模型含有連續變量時,最好采用單獨的二分類logit模型利用Homser-Lemeshow指標進行評價。Pulksteins等[15]則提出了一種修正Pearson χ2和Deviance值,用于含連續變量的累積比數logit模型的擬合優度評價等。
總之,累積比數logit模型的應用不僅僅是參數求解,而是包含了一系列過程,如變量正確賦值、變量的初步描述、圖示檢查、變量選擇、參數求解、擬合優度評價、結果的合理解釋等。它需要對專業和統計學知識的全面了解,也需要一個實事求是的態度。只有準確掌握應用條件,恰當地對模型進行評價,并結合專業知識進行合理的解釋,才能得出可靠的結論。
參考文獻
[1] Bender R,Gruven U.Ordinal logistic regression in medical research[J].J R Coll Physic Lond,1997,31(5):546-551.
[2] McCullagh P.Regression models for ordinal data [J].J R Stat Soc(B),1980,42(2):109-142.
[3] Amstrong BG,Sloan M.Ordinal Regression models for epidemiologic data[J].Am J Epidemiol,1989,129(1):191-204.
[4] 馮國雙,陳景武,周春蓮.logistic回歸應用中容易忽視的幾個問題[J].中華流行病學雜志,2004:25(6):544-545
[5] 趙宇東,劉嶸,劉延齡,等.多元logistic回歸的共線性分析[J].中國衛生統計,2001,17(5):259-261.
[6] 羅登發,余松林.條件logistic回歸模型的殘差分析和影響診斷[J].中國衛生統計,1997:14(1):13-15.
[7] 魏朝暉.logistic回歸診斷[J].中國衛生統計,2001, 18(2):112-113.
[8] 趙清波,徐勇勇,夏結來.logistic回歸中高杠桿點的檢測[J].中國衛生統計,1997,14(2):17-20.
[9] Bender R,Benner A.Calculating ordinal regression models in SAS and S-Plus[J]. Biom J,2000,42(6):677-699.
[10] Peterson B, Harrell F.Partial proportional ordinal model for ordinal response variables[J].Appl Statist,1990,39(2):205-217.
[11] Lall R,Campbell MJ,Walters SJ,et al.A review of ordinal regression models applied to health-related quality of life assessments[J].Stat Methods Med Res,2002,11(1):49-67.
[12] Fahrmeir L, Tutz G.Multivariate statistical modeling based on generalized linear models [M].2nd ed. Berlin:Springer-Verlag,1998:75-79.
[13] 王濟川, 郭志剛.Logistic回歸模型——方法與應用[M].北京:高等教育出版社,2001:58-65.
相關熱搜:統計學 統計學原理
一、數據統計分析的內涵
數據分析是指運用一定的分析方法對數據進行處理,從而獲得解決管理決策或營銷研究問題所需信息的過程。所謂的數據統計分析就是運用統計學的方法對數據進行處理。在實際的市場調研工作中,數據統計分析能使我們挖掘出數據中隱藏的信息,并以恰當的形式表現出來,并最終指導決策的制定。
二、數據統計分析的原則
(1)科學性??茖W方法的顯著特征是數據的收集、分析和解釋的客觀性,數據統計分析作為市場調研的重要組成部分也要具有同其他科學方法一樣的客觀標準。(2)系統性。市場調研是一個周密策劃、精心組織、科學實施,并由一系列工作環節、步驟、活動和成果組成的過程,而不是單個資料的記錄、整理或分析活動。(3)針對性。就不同的數據統計分析方法而言,無論是基礎的分析方法還是高級的分析方法,都會有它的適用領域和局限性。(4)趨勢性。市場所處的環境是在不斷的變化過程中的,我們要以一種發展的眼光看待問題。(5)實用性。市場調研說到底是為企業決策服務的,而數據統計分析也同樣服務于此,在保證其專業性和科學性的同時也不能忽略其現實意義。
三、推論性統計分析方法
(1)方差分析。方差分析是檢驗多個總體均值是否相等的一種統計方法,它可以看作是t檢驗的一種擴展。它所研究的是分類型自變量對數值型因變量的影響,比如它們之間有沒有關聯性、關聯性的程度等,所采用的方法就是通過檢驗各個總體的均值是否相等來判斷分類型自變量對數值型因變量是否有顯著影響。(2)回歸分析。在數據統計分析中,存在著大量的一種變量隨著另一種變量的變化而變化的情況,這種對應的因果變化往往無法用精確的數學公式來描述,只有通過大量觀察數據的統計工作才能找到他們之間的關系和規律,解決這一問題的常用方法是回歸分析。回歸分析是從定量的角度對觀察數據進行分析、計算和歸納。
四、多元統計分析方法
關鍵詞:ArcGIS 土壤 區域 空間變異
中圖分類號:X53 文獻標識碼:A 文章編號:1007-3973(2012)010-108-02
1 引言
隨著信息社會的到來,人類社會進入了信息大爆炸的時代。面對海量的信息,人們對信息的要求發生了巨大變化。隨著計算機技術的出現和快速發展,對空間位置信息和其他屬性類信息進行統一管理的地理信息系統也隨之快速發展起來了。
在眾多的地理信息軟件中,美國公司ESRI公司推出的ArcGIS地理信息平臺是最具代表性的GIS軟件平臺,其強大的空間分析處理工具和不斷更新、完善的空間分析功能是其他軟件無法比擬的。
土壤是在巖石風化產物基礎上發育形成的自然體,土壤中還有各種重金屬,通過ArcGIS的地統計模塊能夠揭示土壤重金屬的空間變異規律和空間分布,為實現土壤可持續利用和區域規劃提供理論依據。
2 ArcGIS中地統計模塊
來自法國的統計學家G.Matheron在經過許多研究和分析后后創立了一門嶄新的統計學分支:地統計學。地統計學的基礎是區域化變量,以變異函數為工具,研究的對象是具有隨機性和結構性的自然現象。
2.1 地統計基本原理
2.1.1 地統計假設
隨機性,正態分布和平穩性分別是地統計原理的三個基本假設。在平穩性中有兩大類:均值平穩和二階平穩、內蘊平穩。均值平穩假設均值是與位置無關的一個常量;二階平穩與協方差有聯系;內蘊平穩與半變異函數有聯系。二階平穩假設在空間上的任意兩點,如果它們的距離和方向都相同,那么它們的協方差也是相同的;內蘊平穩則假設在空間上的任意兩點,如果它們的距離和方向是相同的,那么它們的方差也是相同的。
本書共有10章:1.簡要介紹了本書的讀者對象、使用方法、組織架構等;2.統計基礎,對統計方面的基礎理論知識展開詳細描述,包括統計思維、數據格式、繪圖方式、概率分布等;3.統計推斷,講述了參數點估計、假設檢驗、總體樣本、人口分布的概率圖和測試及蒙特卡羅模擬等;4.統計模型,包括模型簡介、回歸模型和實驗設計分析等;5.多變量統計的基礎,主要包括多變量隨機抽樣、多變量數據可視化、樣品幾何形狀、廣義方差等;6.多變量統計推斷,包括平均向量推論、兩個總體的均值矢量比較、方差-協方差矩陣的推論等;7.主成分分析,主要講解其定義和性質、停止規則、殘差分析、統計推斷等;8.典型相關分析,描述數學公式、實際應用、典型相關回歸等理論;9.判別和分類,主要包括兩個或幾個總體分類和空間平滑的分類分析;10.聚類分析,包括相似和非相似方法、層次和非層次聚類算法等。
本書強調幾何直觀的概念理解,所有的例子都比較簡單,并提供背景解釋。貫穿全書的習題集和解決方案包含部分數值計算結果,讀者可以方便地確認自己方法的準確性。
本書是成像科學多變量統計學課程中一本非常優秀的圖書,適合本科和研究生閱讀。該書也可為從事成像、光學和光電子學領域每天需要進行數據處理分析的專業人士提供有價值的參考。
Peter Bajorski博士是羅切斯特理工學院統計學系的副教授,他在統計學研究領域包括回歸技術、多變量分析、實驗設計、非參數方法和可視化方法等,成像研究包括光譜圖像目標檢測等。
聶樹真,
助理研究員
(中國科學院光電研究院)
【摘要】 目的: 介紹應用多重對應分析方法實現對大樣本分類變量之間的相關性分析,旨在對大樣本疾病信息采集資料的臨床和基礎科研工作者提供可借鑒的統計學分析方法。方法:應用SPSS11.5統計分析軟件中Data Reduction菜單的Optimal Scaling過程對大樣本分類變量進行多重對應分析,以研究它們之間的聯系。結果:慢性胃炎的4種病理組織診斷與8種中醫證型有一定的相關性,這對慢性胃炎的臨床診斷及治療具有指導意義,為慢性胃炎中醫證候規范化研究提供一定的思路。結論:對于中醫研究中常見的無序多分類或二分類變量,要同時研究它們之間的聯系,用多重對應分析在結果的直觀性和可解釋性方面優于對數線性模型。SPSS11.5統計分析軟件易于實現多個變量間的多重對應分析。
【關鍵詞】 多重對應分析; 相關性分析; 大樣本; 分類變量
長期以來,中醫的辨證分型紛繁多樣,難以統一,同時病理組織檢查是許多疾病診斷及治療的重要依據。如何理清中醫證型和病理診斷之間關系是許多臨床和基礎科研工作者遇到的難題。本研究介紹應用多重對應分析方法實現對中醫大樣本證型與病理診斷的相關性分析,以期為疾病的臨床診斷和治療提供參考依據和幫助,為中醫證候的規范化研究提供一定的思路,為大樣本疾病信息資料的臨床和基礎科研工作者提供可借鑒的統計學分析方法。
1 資料及方法
1.1 資料來源
本研究資料來源于上海市重點學科(第三期) 中醫診斷學建設項目(編號:S30302)。為2001年3月~2008年3月上海中醫藥大學附屬龍華醫院、曙光醫院、岳陽醫院及上海市第八人民醫院消化科門診且經內窺鏡及病理組織學檢查確診為慢性胃炎的患者1068例。以調查表的形式獲得包括基本情況、胃鏡及病理組織學診斷、中醫主癥、食欲食量、全身情況、舌脈象、其他情況等7個部分的內容,共80個變量。所有變量經過命名及量化處理,有程度差異的變量分別賦值1、2、3、4,以示輕重程度從無到重度。對于難以分清程度差異的變量根據有無分別賦值1、0。本研究借用其中病理診斷與中醫主要證型的部分實驗數據。
1.2 統計學方法
調查表所得數據采用EipData3.1軟件進行數據管理,雙遍錄入和核對,建立相關數據庫。應用SPSS11.5統計分析軟件中Data Reduction菜單的Optimal Scaling過程對中醫主要證型與病理診斷結果進行多重對應分析,以研究它們之間的聯系。
2 分析步驟及結果
其分析步驟如下:
Analyze"Data Reduction"Optimal Scaling
Define
Variables框:HP、腸化生、病理萎縮、慢性炎癥
選中以上4個變量:Define Range
Maximum框:4 Continue 取值范圍在1~4之間
Variables框:主證
選中以上變量:Define Range
Maximum框:8 Continue 取值范圍在1~8之間
OK
結果見圖1。
HP感染慢性胃炎患者中醫證型以脾胃濕熱證多見,依次可見肝胃郁熱、脾胃氣虛等證,與脾胃虛寒證無明顯關聯。慢性炎癥類胃炎患者中醫證型以濕濁中阻證多見,次之可見脾虛濕阻證、脾胃氣虛證、肝氣郁結證,較少出現脾胃虛寒證。萎縮性胃炎患者中醫證型以虛證為主,以脾胃氣虛證多見,次見脾胃虛寒證,較少出現濕濁中阻、脾胃濕熱等實證。腸化生類胃炎患者中醫證型以肝胃郁熱、濕濁中阻證多見,次之見肝氣郁結、脾胃氣虛等證。
圖1 分析結果
3 討論
本研究采用大樣本的臨床病例資料,經統計學多重對應分析方法分析顯示,中醫證型與西醫病理組織診斷間有一定的相關性,這有助于了解疾病不同病情階段的中西醫診斷之間的內在相關性,有利于用辨證與辨病相結合的方式為疾病的臨床診斷和治療提供依據和幫助。如對于無明顯臨床癥狀的患者,可以以病理組織的不同特點及舌脈象特征作為中醫辨證論治的依據;對于病理組織檢查尚未明確的患者,可以結合中醫的辨證結果及其他檢查初步制定診療方案。也可為中西醫結合探討該疾病的病因病機及證治規律尋求理論及臨床實踐中的結合點,同時為疾病的中醫證候客觀化研究提供一定的思路和方法。
中醫領域的研究很多變量多為無序多分類或二分類變量,同時研究它們之間的聯系可用的方法有對數線性模型和多重對應分析兩種,從結果的直觀性和可解釋性上講,多重對應分析要更好些。多重對應分析是多維圖示分析技術的一種,是了解多維數據間聯系的一種強有力的方法,該分析方法既有頻數的分析,也有各變量間的關系圖示。其分析結果主要采用反映變量間相互關系的對應分析圖來表示。該圖形中的每個散點代表了某個變量的一個水平,有較緊密關系的水平其散點將緊密地靠近一起,從而在結果的解釋上非常的直觀。在解釋該圖形時遵從的原則是:落在由原點(0,0)出發接近相同方位及圖形相同區域的同一變量的不同類別具有類似的性質;落在原點出發接近相同方向及圖形相同區域的不同變量的類別間可能有聯系。SPSS11.5統計分析軟件易于實現多個變量間的多重對應分析。但在變量較多時可能會掩蓋真實聯系,同時使得圖形一片混亂,難以看清(根據此次實際操作經驗,每次最多選入的變量不能超過13個,否則真的是一片混亂,無法處理了)。此時需要用戶根據經驗和分析結果進行耐心的篩選,以得到最優結果。這對使用者的分析水平和職業道德都是一個嚴峻的考驗。
【參考文獻】