天天看點

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一2.1 基本概念和術語

本節書摘來華章計算機《資料分析實戰:基于excel和spss系列工具的實踐》一書中的第2章 ,第2.1節,紀賀元 著 更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

有關統計和資料挖掘的概念很多,以下揀選一些常用的基本概念進行說明。

1.統計與挖掘

“統計”,對于讀者來說可能并不陌生,在“統計”、“挖掘”這兩個概念中,可能大家往往會覺得“挖掘”更難了解。統計和挖掘最大的差别在于:統計是事先設想好的一個動作,然後去驗證它。例如先假設銷售收入和銷售投入之間有關系,公司多投錢給推銷人員去拜訪客戶,就能獲得更多的使用者和訂單,銷售收入就能上升,然後我們用統計的模型去驗證它。

另外的一個例子是:社會大衆都認為吸煙是導緻肺癌的重要原因,然後大家找來了一些肺癌患者的相關資料,研究表明,同樣是吸煙者,有的人得了肺癌,但是很多人卻沒事,并且一些從來不吸煙的女性也有得肺癌的。這樣,大家慢慢開始懷疑肺癌和吸煙之間的正向關系。或者簡單地說,對于這個例子,統計分析的結論是固定的:隻有兩種可能,一是肺癌和吸煙有關系,二是無關!

那麼資料挖掘是怎麼樣的呢?

曾經有炒股票的大戶給了我們很多資料,包括股票是否漲停、是否放量、前幾天的各種名額,涉及kdj、rsi、macd等,客戶希望我們幫他确定:具有什麼樣特征的股票是比較容易漲停的?這個需求怎麼實作後面再說,這裡想要說明的是,在分析這個資料之前,是沒有“假定”的,我們不知道最後做出來的結果是什麼樣的。這就是資料挖掘,從大量的資料中通過各種方法找出隐藏于其中的資訊。

2.平均值

平均值似乎是一個無須講的東西,但是實際上在資料量大的情況下,平均值反映的是一個資料“應該”是什麼。記得之前曾看過一份報告,說上海成年男性的平均身高是170.5厘米,那份報告的樣本量是比較大的,實際上就是說上海男性的身高“應該”是170.5厘米。

3.标準差

如果說平均值反映了資料的“中軸線”,那麼标準差就反映了資料的波動情況,也就是說資料是波瀾不驚還是起伏不定。

“平均值+标準差”仿佛就是一對結義兄弟,焦不離孟、孟不離焦,我們經常用這個組合來衡量資料的變動範圍,如圖2-1(資料的平均值和标準差分布圖)所示。

4.正态分布

說起正态分布,我自己都有點犯難,因為正态分布是理論性比較強的,這本書的初衷是側重應用而不是理論。不過正态分布實在是重要,它貫穿了統計分析的全過程,幾乎無處不在,正态分布如同統計分析中繞不過去的一堵牆,是以還是需要解釋一下。

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一2.1 基本概念和術語

了解正态分布,就從這個例子開始:90年代末的時候,移民還比較容易,那時很多人都選擇了移民,那麼,我們現在來看看當時移民到美國、加拿大的人過得怎麼樣吧!大緻梳理了一下,得到如下結論:

混得好的:很少,應該說是極少數。在當地大企業裡面做得不錯,沒幾個;自主創業成功的,好像沒有。當然這裡說的自主創業是正兒八經的創業,開中國餐館個人認為不算創業。

混得一般的:大多數,就是在企業裡面有一個普通的職位,算不上有錢,但是溫飽不愁。

混得差的:也是少數,有一些人回來了,或者在那邊就是幹司機、導遊或體力活,這裡絲毫沒有瞧不起這些職業的意思,但是對于在國内受過良好高等教育的人來說,算是專業不對口吧。

簡單地講,就是混得好的和混得很差的都很少,大多數都是普普通通。

其實這種規律在工作和生活中大量存在,如果跟蹤統計一下大學畢業生的發展情況,大緻也是這樣;老百姓的體重、身高、血壓、血糖等的分布都是如此。這種規律就是我們經常提到的正态分布。

如果把這個規律稍微講得形象一點,就是“兩頭小,中間大”,請見圖2-2(資料的頻率和正态分布圖)。

讓我們簡單地看一下正态分布的規律:

1)兩邊基本是對稱的。

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一2.1 基本概念和術語

2)形狀像一個倒扣的“鐘”。

3)高峰在中間,越到中間,資料分布的機率越大,越到兩邊,機率就越小。

這個看上去很簡單的正态分布,其實就是統計分析的重要基礎,實際上很多統計規律都是建立在資料正态分布的基礎上的。或者說,如果資料不是正态分布的,那麼很多統計規律則是不成立的。

根據正态分布的規律可以得到,絕大部分(95%)的資料,是分布在居中的位置上的,隻有很小機率的事件分布在正态曲線兩側,這個就是假設檢驗中的單側和雙側,如圖2-3所示。

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一2.1 基本概念和術語

5.峰度和偏度

峰度和偏度算是資料分析中比較專業的概念了,峰度反映的是資料中極值的情況,請看圖2-4峰度的資料。

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一2.1 基本概念和術語

在圖2-4中,極值是-10的時候,kurt函數結果為21.86,下面觀察一下當極值範圍在-10和10之間時,kurt函數的取值結果,如圖2-5所示。

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一2.1 基本概念和術語

從圖2-5可以看出,當極值與原值的取值範圍比較接近的時候,峰值會接近于0,而極值與原值的範圍差距比較大時,峰度值會變大,但是無論是正極值還是負極值,峰度的最大值都是23左右。

偏度是衡量資料對稱性的一個重要名額,excel中對應的函數是skew,它用于比較對象正态分布曲線,如圖2-6所示,這是一個左偏的資料圖。

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一2.1 基本概念和術語

在圖2-6中,資料明顯左偏,其偏度值為0.346,再來看看圖2-7,這是一個右偏的資料圖。

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一2.1 基本概念和術語

在圖2-7中,資料的偏度為-0.098,此時資料明顯右偏。是以根據偏度值判斷資料對稱性的規則如下:

資料服從正态分布,偏度為0。

資料左偏,偏度>0。

資料右偏,偏度<0。

6.連續和離散

連續變量和離散變量是資料分析中經常碰到的概念,所謂連續變量就是一個區間裡可以任意變化的量,例如國民收入在0~100萬之間波動時,每一個值都是可以取到的;離散變量就是隻能取很少數的幾個值,例如性别,就是男和女;大氣霧霾的等級是優、良、中、輕度污染、重度污染、爆表。

離散變量内部也有區分,圖2-8所示為離散型變量的分類。

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一2.1 基本概念和術語

二進制離散量的例子很多,例如醫生關心患者是否得病,“得病”和“不得病”就是二進制離散的;企業關心客戶的購買行為,“買”和“不買”也是二進制離散的。

隻要離散變量超過兩個,就是多元的,在“多元名義離散量”這個概念中,“名義”這兩個字其實挺難了解的,它的英文是nominal,意思是有多個變量,但是變量之間并沒有明确的排序關系,例如企業品牌之間的關系,寶潔有飄柔、伊卡璐、潘婷、海飛絲等品牌,我們很難說這些品牌之間有明确的排序關系。再例如,在研究城市的經濟發展時,北京、上海、南京、武漢、南甯這些城市之間,也很難說有明确的排序關系。

多元有序則不然,現在國内空氣品質不好,考慮pm2.5指數,有“嚴重污染”、“中度污染”、“輕度污染”、“良”、“優”這五個檔次,見表2-1。

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一2.1 基本概念和術語

類似于表2-1這種有多個并且之間可以明确排序的變量就是多元有序。

7.因變量和自變量

因變量,一般指的是我們研究和關心的變量,自變量一般就是其發生變化後會引起其他變量變化的變量。

因變量和自變量說起來很容易,但是在實際的資料分析中,學員往往會容易混淆。

我在上課的時候,經常舉到一個“銷售收入和銷售費用”的例子,并且提出了一個判斷因變量和自變量比較簡單有效的原則,即:時間上靠前的就是自變量,時間上靠後的就是因變量。在實際銷售工作中,通常是先有銷售費用,然後去推銷,然後再有銷售收入,是以銷售費用是自變量,銷售收入是因變量。

繼續閱讀