

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、2012年3月20日,數(shù)據(jù)分析——描述統(tǒng)計,前言,在做數(shù)據(jù)分析的時候,一般首先要對數(shù)據(jù)進行描述性統(tǒng)計分析,以便于描述測量樣本的各種特征及其所代表的總體的特征以及發(fā)現(xiàn)其數(shù)據(jù)的內(nèi)在規(guī)律,再選擇進一步分析的方法。描述性統(tǒng)計分析要對調(diào)查總體所有變量的有關數(shù)據(jù)做統(tǒng)計性描述,主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布、以及一些基本的統(tǒng)計圖形。,目錄,集中趨勢離散趨勢探索分析,集中趨勢,定義 在統(tǒng)計學中是指
2、一組數(shù)據(jù)向某一中心值靠攏的程度,它反映了一組數(shù)據(jù)中心點的位置所在。度量方法 集中趨勢的度量包括了均值(mean),中位數(shù)(median),眾數(shù)(mode)。,均值、中位數(shù)、眾數(shù)用那一個去度量平均水平呢?以及為什么?,均值、中位數(shù)、眾數(shù)的淵源,定義均值:表示一系列數(shù)據(jù)或統(tǒng)計總體的平均特征的值中位數(shù):將總體單位的某一數(shù)量標志的各個數(shù)值按照大小順序排列,居于中間位置的那個數(shù)值就是中位數(shù)。眾數(shù):眾數(shù)是指變量數(shù)列中出現(xiàn)次數(shù)最多或頻率最
3、大的變量值。,1.眾數(shù)、中位數(shù)、算術平均數(shù)的比較,均值比中位數(shù)、眾數(shù)對數(shù)據(jù)的概括能力要強。 相對于中位數(shù)和眾數(shù)而言均值對數(shù)據(jù)的靈敏度較大。 均值比中位數(shù)、眾數(shù)偏于計算和分析。 均值的抗耐性較差,極容易受個別和少數(shù)極端值的影響。 均值適用范圍比中位數(shù)、眾數(shù)窄。,2.眾數(shù)、中位數(shù)、算術平均數(shù)數(shù)值關系,(一)對稱分布情況下(二)偏態(tài)分布情況下,,,數(shù)據(jù)類型與集中趨勢測度值,※為該數(shù)據(jù)類型最適合用的測度值.,均值、中位數(shù)
4、、眾數(shù)的代表性衡量及使用,前面我們知道均值、中位數(shù)、眾數(shù)的定義不同,特點和適用范圍不同,在衡量這些平均指標的代表性時要根據(jù)不同的情況加以具體分析。1.對于不同的總體在平均指標相等的情況下,我們一般用總體的標準差這個指標來衡量這些平均指標的代表性大小,一般來說,標準差較大的總體其平均指標的代表性較小。2.對于不同的總體在其平均指標不相等的情況下,我們一般用離散系數(shù)來衡量這些平均指標的代表性,一般來說,這時離散系數(shù)較小的總體其平均指標的
5、代表性較大。3.對于同一總體中算術平均數(shù)、中位數(shù)、眾數(shù)的代表性高低的衡量。由于這些起代表意義的平均指標本身所具有的特點不同,應用范圍不同,在描述和反映不同現(xiàn)象時的代表性也不同,只有根據(jù)它們的不同特點,正確恰當?shù)馗鶕?jù)不同的情況選擇不同的平均指標,才能夠提高這些平均指標的代表性,更客觀、準確地反映和描述事物現(xiàn)象的本質特征。,例子,找一個能夠代表二次裝修年限的代表性指標,均值、中位數(shù)、眾數(shù),哪一個更合理?作業(yè)3.sav,,,,數(shù)據(jù)的均值是
6、6.70,中位數(shù)是6.眾數(shù)是10。,,如果一只腳放在攝氏1度的水里,另一只腳放在攝氏79度的水里,平均水溫40度。你感覺舒服極了???,這只是一個笑話。說明了只了解數(shù)據(jù)的集中趨勢是不夠的。還需要看數(shù)據(jù)的離散程度。,離散趨勢,1. 離散趨勢的各測度值是對數(shù)據(jù)離散程度所做的描述2. 反映各變量值遠離其中心值的程度,因此也稱為離中趨勢3. 從另一個側面說明了集中趨勢測度值的代表程度。,離散趨勢——測度指標,1、全距2、四分位差3、平均差
7、4、標準差5、方差6、離散系數(shù),四分位差是四分位數(shù)中間兩個分位之差。,平均差是總體各單位標志值對其算術平數(shù)的離差絕對值的算術平均數(shù)。,總體各單位標志值對其算術平均數(shù)離差平方的算術平均數(shù)的平方根又稱均方差或均方根差,標準差的平方即為方差,一組變量值的最大值與最小值之差,變異系數(shù),定義:標準差與平均數(shù)的比值稱為變異系數(shù),是衡量資料中各觀測值變異程度的另一個統(tǒng)計量。記為C.V。作用:反映單位均值上的離散程度,常用在兩個總體均值不等的離
8、散程度的比較上。若兩個總體的均值相等,則比較標準差系數(shù)與比較標準差是等價的。變異系數(shù)又稱離散系數(shù)。,標準差解決了單位相同、平均數(shù)相同的數(shù)據(jù)離散程度,那么不滿足這兩點數(shù)據(jù)的離散度比較還能用標準差嗎?,標準差與標準誤的區(qū)別,標準差定義:總體各單位標志值對其算術平均數(shù)離差平方的算術平均數(shù)的平方根,又稱均方差或均方根差。計算公式:標準差是方差的算術平方根。 標準差能反映一個數(shù)據(jù)集的離散程度。平均數(shù)相同的,標準差未必相同。,標準誤,定
9、義:標準誤差定義為各測量值誤差的平方和的平均值的平方根,故又稱為均方誤差。計算公式:為了描述由抽樣所致的樣本指標(均數(shù)或率)的離散程度。需要計算統(tǒng)計量的變異指標,稱樣本統(tǒng)計量的標準差為標準誤。 標準誤的意義:反映樣本統(tǒng)計量的離散程度,也反映抽樣誤差的大小。標準誤越小,抽樣誤差越小,用樣本均數(shù)估計總體均數(shù)的可靠性大。,www.themegallery.com,LOGO,標準差和標準誤的區(qū)別,標準差衡量的是樣本數(shù)據(jù)的離散程度.標準
10、差主要有兩點作用:對樣本進行標準化處理和確定異常值,標準誤是樣本均值的標準,表示的是抽樣的誤差。標準誤的作用主要是用來做區(qū)間估計,常用的估計區(qū)間是均值加減n倍的標準誤。,標準差,標準誤,95%的參考值范圍,參考值的概念參考值的計算參考值與置信區(qū)間的區(qū)別,參考值的概念,醫(yī)學參考值是指包括大多數(shù)正常人的人體形態(tài)、機能和代謝產(chǎn)物等各種生理及生化指標常數(shù),也稱正常值。習慣上取該人群的95%的個體某項醫(yī)學指標的界值。取單側還是雙側
11、根據(jù)指標的實際情況而定。例如人體血壓,過高過低都為異常。參考值范圍需要確定上下限。若指標僅過高和過低為異常,則取單側。過低異常,則取下限;過高異常則單側去上限。,參考值的計算,計算數(shù)據(jù)的95%參考值有兩種方法:數(shù)據(jù)服從正態(tài)分布時可以從正態(tài)分布原理求出;數(shù)據(jù)非正態(tài)分布時否則就應當用百分數(shù)法求出。,可信區(qū)間與參考值范圍的區(qū)別,1.從意義來看 95%參考值范圍是指同質總體內(nèi)包括95%個體值的估計范圍,而總體均數(shù)95%可信
12、區(qū)間是指按95%可信度估計的總體均數(shù)的所在范圍。 2.從計算公式看 若指標服從正態(tài)分布,95%參考值范圍的公式是:±1.96s。 總體均數(shù)95%可信區(qū)間的公式是: 。 前者用標準差,后者用標準誤。前者用1.96,后者用α為0.05,自由度為v的t界值。,可信區(qū)間的解釋,從總體中做隨即抽樣,對于含量為n的每個樣
13、本而言。都可以算得一個區(qū)間。以95%的可信區(qū)間為例: 理解1 意味著同一總體中做100次重復抽樣,可得到100個可信區(qū)間,平均有95個可信區(qū)間包含總體均數(shù)。只有5個可信區(qū)間不包含總體均數(shù)。理解2 對于某一區(qū)間而言,它包含總體均數(shù)的可能性為95%,而不包含總體均數(shù)犯錯誤的概率僅為5%。,例子作業(yè)5.sav,分別求兩組數(shù)據(jù)95%的參考值范圍和可信區(qū)間。,對于第一組數(shù)據(jù),因近似呈正態(tài)分布,所以95%的參考值為: (3.01,6.39
14、)對于第二組數(shù)據(jù),峰度和偏度不為0,即數(shù)據(jù)不服從正態(tài)分布,直接取2.5%和97.5%:即(63.40,97.02),第一組數(shù)據(jù)的置信區(qū)間為: (4.53,4.87) 第二組數(shù)據(jù)的置信區(qū)間為(87.11,88.65),異常值的檢驗與處理,當一組數(shù)據(jù)對稱分布時,經(jīng)驗法則表明:約有68%的數(shù)據(jù)在平均數(shù)加減1個標準差的范圍之內(nèi);約有95%的數(shù)據(jù)在平均數(shù)加減2個標準差的范圍之內(nèi);約有99%的數(shù)據(jù)在平均數(shù)加減3個標準差的范圍之內(nèi)。當一組
15、數(shù)據(jù)不再是對稱分布時,切比雪夫不等式表明:至少有75%的數(shù)據(jù)落在平均數(shù)加減2個標準差的范圍以內(nèi);至少有89%的數(shù)據(jù)落在平均數(shù)加減3個標準差的范圍以內(nèi);至少有94%的數(shù)據(jù)落在平均數(shù)加減4個標準差的范圍以內(nèi)。,什么樣的數(shù)值是異常值呢?,1.異常值的定義,定義:一組測定值中與平均值的偏差超過兩倍標準差的測定值。 與平均值的偏差超過三倍標準差的測定值,稱為高度異常的異常值。,2.異常值的危害,異常值的存在對分析結果(均值和標準差)產(chǎn)生
16、重要的影響,異常值的檢驗與正確處理是保證原始數(shù)據(jù)可靠性、平均值和標準差計算的準確性的前提。,異常值的檢驗—方法一:,,異常值的檢驗—方案二:,用SPSS繪制一組數(shù)據(jù)的箱線圖。 異常值:值與框的上下邊界的距離在1.5倍框的長度到3倍框的長度之間的個案。 極端值:值距離框的上下邊界超過3倍框的長度的個案。,,,在箱線圖里面異常值用“o”表述。極端值用“*”表示,最小值,四分之一分位數(shù),中位數(shù),四分之三分位數(shù),最大值,異常值的檢驗—方法
17、三:,計算統(tǒng)計量 μ=(X1+X2+…+Xn)/n s=(∑(Xi-μ)/(n-1))½(i=1,2…n) Gn=(X(n)-μ)/s 注:式中μ——樣本平均值; s——樣本標準差; Gn——格拉布斯檢驗統(tǒng)計量。 確定檢出水平α,查表得出對應n,α的格拉布斯檢驗臨界值G1-α(n)。 當Gn>G1-α(n),則判斷Xn為異常值,否則無異常值 給出剔除水平α’的G1-α’(
18、n),當當Gn>G1-α’(n)時,Xn為高度異常值,應剔除。,SPSS中異常值檢驗的幾種方法介紹,離群值(箱圖/探索).值與框的上下邊界的距離在1.5倍框的長度到3倍框的長度之間的個案??虻拈L度是內(nèi)距。極端值(箱圖).值距離框的上下邊界超過3倍框的長度的個案??虻拈L度是內(nèi)距在回歸模型診斷里面,一般稱預測值與實際值的偏差為"殘差",殘差有幾種表示方法:標準化殘差, 學生化殘差等等,按照需要取一種殘差,再按照
19、某種標準取一個閥值來限定異常點,只要那個點的殘差大于閥值,就可以認為它是異常點。,正態(tài)性檢驗方法,1.直方圖2.莖葉圖3.箱線圖4.P-P圖5.Q-Q圖6 偏度、峰度檢驗法:7.樣本的四分位差和標準差的比值8.Kolmogorov-Smirnov正態(tài)性檢驗9.Shapiro-Wilk(W檢驗),1.直方圖直方圖:用矩形的寬度和高度表示頻數(shù)分布的圖形。圖為作業(yè)3第一次評 分結果直方圖,數(shù)據(jù)分組,頻數(shù),2.莖葉圖,,
20、,頻數(shù),,,樹莖,,,樹葉,莖葉圖相當于橫置的直方圖,但它可以保留原始數(shù)據(jù)的信息。,3.箱線圖,,,,中位數(shù)與上四分位數(shù)的距離,,下四分位數(shù)與眾位數(shù)間的距離,判斷方法:觀察矩形位置和中位數(shù),若矩形位于中間位置且中位數(shù)位于矩形的中間位置,則分布較為對稱,否則是偏態(tài)分布,如何看數(shù)據(jù)是否服從正態(tài)分布呢?,4.P-P圖,理論累積概率,實際值計算的累積概率,實際值計算的累積概率,差值,解讀:若數(shù)據(jù)服從正態(tài)分布,P-P圖樣本數(shù)據(jù)點呈對角線分布。P-
21、P趨勢圖應隨機分布在Y=0的兩側。,5. Q-Q圖 以上兩種方法以Q-Q圖為佳,效率較高。,觀察值分位數(shù),觀察值分位數(shù),理論分位數(shù),觀察值分位數(shù)與理論分布分位數(shù)的差值,解讀:若數(shù)據(jù)服從正態(tài)分布,Q-Q圖樣本數(shù)據(jù)點呈對角線分布。Q-Q趨勢圖應隨機分布在Y=0的兩側。,6 偏度、峰度檢驗法: g1表示偏度,g2表示峰度,通過計算g1和g2及其標準誤σg1及σg2然后作U檢驗。兩種檢驗同時得出U0.05的結
22、論時,才可以認為該組資料服從正態(tài)分布,7.樣本的四分位差和標準差的比值,比值= 表示四分位差,S表示標準差。若數(shù)據(jù)服從正態(tài)分布,則比值接近于1.3。,8.Kolmogorov-Smirnov正態(tài)性檢驗,定義:K-S檢驗是檢查單一樣本是否來自某一特定分布的方法。檢驗方法:以樣本數(shù)據(jù)的累積頻數(shù)與特定理論分布比較,若兩者間的差距較小,則推論該樣本取自某特定分布族。,8.Kolmogorov-Smirnov正態(tài)性檢驗,定義:K-S檢
23、驗是檢查單一樣本是否來自某一特定分布的方法。檢驗方法:以樣本數(shù)據(jù)的累積頻數(shù)與特定理論分布比較,若兩者間的差距較小,則推論該樣本取自某特定分布族。假設:,8.Kolmogorov-Smirnov正態(tài)性檢驗,表示樣本的累積概率函數(shù), 表示特定分布的分布函數(shù)構建統(tǒng)計量當原假設為真時,D的值應較小;對于給定的注:對于特定的樣本量及顯著性水平 可以查表得到d的值。,9.Shapiro-Wilk(W檢驗),W檢驗是建立再次序
24、統(tǒng)計量的基礎上,將 n個獨立觀測值按非降次序排列,記為 :檢驗統(tǒng)計量為:其中系數(shù) 在樣本容量為n時有特定的值另外,系數(shù) 還具有如下性質:,9.Shapiro-Wilk(W檢驗),總體分布為正態(tài)分布時,W 的值應該接近1,因此,再顯著性水平 下,如果統(tǒng)計量W的值小于其 分位數(shù),則拒絕原假設。即拒絕域為 { } 其中 分位數(shù)可查表。如若在計算中有 ,則在顯著
25、水平為 上未落入拒絕域,即可認為該批數(shù)據(jù)服從正態(tài)分布;若在計算中有 ,則在顯著水平為 上落入拒絕域,認為該批數(shù)據(jù)不服從正態(tài)分布。,例子:,,K-S方法和S-W方法是有區(qū)別的,一般情況下,K-S方法在心理測量中經(jīng)常使用,S-W方法在樣本容量小于50時可以使用,判別:如果P值小于 0.05,則拒絕數(shù)據(jù)正態(tài)的原假設,即數(shù)據(jù)不是正態(tài)分布。,方差齊性檢驗,定義:方差齊性實際上是指要比較的兩組數(shù)據(jù)的分布是否一致,通俗的來說就是兩者是否適合比較
26、方法:常用Levene方差齊性檢驗,也稱為Levene檢驗優(yōu)點:相較其他方法用途較廣泛。可以對原始數(shù)據(jù)的數(shù)據(jù)轉換; Levene檢驗既可以用于正態(tài)分布的資料,也可以用于非正態(tài)分布的資料或分布不明的資料用處: Levene檢驗主要用于檢驗兩個或兩個以上樣本間的方差是否齊性.要求樣本為隨機樣本且相互獨立。,方差齊性檢驗,基于均數(shù),基于中位數(shù),中位數(shù)并調(diào)整自由度,刪除數(shù)據(jù)極值后均數(shù),P值均小于0.05,因此數(shù)據(jù)方差不齊。說明兩次評分結果不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 統(tǒng)計學第二章描述性統(tǒng)計分析
- 描述性統(tǒng)計
- 變量描述統(tǒng)計分析
- “大學生信息素養(yǎng)與心理調(diào)適的關系”4000例調(diào)查的描述性統(tǒng)計分析
- 描述性統(tǒng)計學-universityofpittsburgh
- 統(tǒng)計分析
- 統(tǒng)計分析
- 描述性統(tǒng)計學公式
- 事故統(tǒng)計分析
- 應用統(tǒng)計分析
- 空間統(tǒng)計分析
- sas統(tǒng)計分析
- 統(tǒng)計分析報告
- 統(tǒng)計分析專員
- 統(tǒng)計分析專員
- 統(tǒng)計分析報告
- 統(tǒng)計分析報告
- 描述性研究
- 對稱性全局統(tǒng)計分析.pdf
- 公允價值變動對上市公司盈余管理影響的描述性統(tǒng)計分
評論
0/150
提交評論