《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一2.1　基本概念和術語

本節書摘來華章計算機《資料分析實戰:基于excel和spss系列工具的實踐》一書中的第2章，第2.1節，紀賀元　著更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

有關統計和資料挖掘的概念很多，以下揀選一些常用的基本概念進行說明。

1.統計與挖掘

“統計”，對于讀者來說可能并不陌生，在“統計”、“挖掘”這兩個概念中，可能大家往往會覺得“挖掘”更難了解。統計和挖掘最大的差别在于：統計是事先設想好的一個動作，然後去驗證它。例如先假設銷售收入和銷售投入之間有關系，公司多投錢給推銷人員去拜訪客戶，就能獲得更多的使用者和訂單，銷售收入就能上升，然後我們用統計的模型去驗證它。

另外的一個例子是：社會大衆都認為吸煙是導緻肺癌的重要原因，然後大家找來了一些肺癌患者的相關資料，研究表明，同樣是吸煙者，有的人得了肺癌，但是很多人卻沒事，并且一些從來不吸煙的女性也有得肺癌的。這樣，大家慢慢開始懷疑肺癌和吸煙之間的正向關系。或者簡單地說，對于這個例子，統計分析的結論是固定的：隻有兩種可能，一是肺癌和吸煙有關系，二是無關！

那麼資料挖掘是怎麼樣的呢？

曾經有炒股票的大戶給了我們很多資料，包括股票是否漲停、是否放量、前幾天的各種名額，涉及kdj、rsi、macd等，客戶希望我們幫他确定：具有什麼樣特征的股票是比較容易漲停的？這個需求怎麼實作後面再說，這裡想要說明的是，在分析這個資料之前，是沒有“假定”的，我們不知道最後做出來的結果是什麼樣的。這就是資料挖掘，從大量的資料中通過各種方法找出隐藏于其中的資訊。

2.平均值

平均值似乎是一個無須講的東西，但是實際上在資料量大的情況下，平均值反映的是一個資料“應該”是什麼。記得之前曾看過一份報告，說上海成年男性的平均身高是170.5厘米，那份報告的樣本量是比較大的，實際上就是說上海男性的身高“應該”是170.5厘米。

3.标準差

如果說平均值反映了資料的“中軸線”，那麼标準差就反映了資料的波動情況，也就是說資料是波瀾不驚還是起伏不定。

“平均值+标準差”仿佛就是一對結義兄弟，焦不離孟、孟不離焦，我們經常用這個組合來衡量資料的變動範圍，如圖2-1（資料的平均值和标準差分布圖）所示。

4.正态分布

說起正态分布，我自己都有點犯難，因為正态分布是理論性比較強的，這本書的初衷是側重應用而不是理論。不過正态分布實在是重要，它貫穿了統計分析的全過程，幾乎無處不在，正态分布如同統計分析中繞不過去的一堵牆，是以還是需要解釋一下。

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一2.1　基本概念和術語

了解正态分布，就從這個例子開始：90年代末的時候，移民還比較容易，那時很多人都選擇了移民，那麼，我們現在來看看當時移民到美國、加拿大的人過得怎麼樣吧！大緻梳理了一下，得到如下結論：

混得好的：很少，應該說是極少數。在當地大企業裡面做得不錯，沒幾個；自主創業成功的，好像沒有。當然這裡說的自主創業是正兒八經的創業，開中國餐館個人認為不算創業。

混得一般的：大多數，就是在企業裡面有一個普通的職位，算不上有錢，但是溫飽不愁。

混得差的：也是少數，有一些人回來了，或者在那邊就是幹司機、導遊或體力活，這裡絲毫沒有瞧不起這些職業的意思，但是對于在國内受過良好高等教育的人來說，算是專業不對口吧。

簡單地講，就是混得好的和混得很差的都很少，大多數都是普普通通。

其實這種規律在工作和生活中大量存在，如果跟蹤統計一下大學畢業生的發展情況，大緻也是這樣；老百姓的體重、身高、血壓、血糖等的分布都是如此。這種規律就是我們經常提到的正态分布。

如果把這個規律稍微講得形象一點，就是“兩頭小，中間大”，請見圖2-2（資料的頻率和正态分布圖）。

讓我們簡單地看一下正态分布的規律：

1）兩邊基本是對稱的。

2）形狀像一個倒扣的“鐘”。

3）高峰在中間，越到中間，資料分布的機率越大，越到兩邊，機率就越小。

這個看上去很簡單的正态分布，其實就是統計分析的重要基礎，實際上很多統計規律都是建立在資料正态分布的基礎上的。或者說，如果資料不是正态分布的，那麼很多統計規律則是不成立的。

根據正态分布的規律可以得到，絕大部分（95%）的資料，是分布在居中的位置上的，隻有很小機率的事件分布在正态曲線兩側，這個就是假設檢驗中的單側和雙側，如圖2-3所示。

5.峰度和偏度

峰度和偏度算是資料分析中比較專業的概念了，峰度反映的是資料中極值的情況，請看圖2-4峰度的資料。

在圖2-4中，極值是-10的時候，kurt函數結果為21.86，下面觀察一下當極值範圍在-10和10之間時，kurt函數的取值結果，如圖2-5所示。

從圖2-5可以看出，當極值與原值的取值範圍比較接近的時候，峰值會接近于0，而極值與原值的範圍差距比較大時，峰度值會變大，但是無論是正極值還是負極值，峰度的最大值都是23左右。

偏度是衡量資料對稱性的一個重要名額，excel中對應的函數是skew，它用于比較對象正态分布曲線，如圖2-6所示，這是一個左偏的資料圖。

在圖2-6中，資料明顯左偏，其偏度值為0.346，再來看看圖2-7，這是一個右偏的資料圖。

在圖2-7中，資料的偏度為-0.098，此時資料明顯右偏。是以根據偏度值判斷資料對稱性的規則如下：

資料服從正态分布，偏度為0。

資料左偏，偏度＞0。

資料右偏，偏度＜0。

6.連續和離散

連續變量和離散變量是資料分析中經常碰到的概念，所謂連續變量就是一個區間裡可以任意變化的量，例如國民收入在0～100萬之間波動時，每一個值都是可以取到的；離散變量就是隻能取很少數的幾個值，例如性别，就是男和女；大氣霧霾的等級是優、良、中、輕度污染、重度污染、爆表。

離散變量内部也有區分，圖2-8所示為離散型變量的分類。

二進制離散量的例子很多，例如醫生關心患者是否得病，“得病”和“不得病”就是二進制離散的；企業關心客戶的購買行為，“買”和“不買”也是二進制離散的。

隻要離散變量超過兩個，就是多元的，在“多元名義離散量”這個概念中，“名義”這兩個字其實挺難了解的，它的英文是nominal，意思是有多個變量，但是變量之間并沒有明确的排序關系，例如企業品牌之間的關系，寶潔有飄柔、伊卡璐、潘婷、海飛絲等品牌，我們很難說這些品牌之間有明确的排序關系。再例如，在研究城市的經濟發展時，北京、上海、南京、武漢、南甯這些城市之間，也很難說有明确的排序關系。

多元有序則不然，現在國内空氣品質不好，考慮pm2.5指數，有“嚴重污染”、“中度污染”、“輕度污染”、“良”、“優”這五個檔次，見表2-1。

類似于表2-1這種有多個并且之間可以明确排序的變量就是多元有序。

7.因變量和自變量

因變量，一般指的是我們研究和關心的變量，自變量一般就是其發生變化後會引起其他變量變化的變量。

因變量和自變量說起來很容易，但是在實際的資料分析中，學員往往會容易混淆。

我在上課的時候，經常舉到一個“銷售收入和銷售費用”的例子，并且提出了一個判斷因變量和自變量比較簡單有效的原則，即：時間上靠前的就是自變量，時間上靠後的就是因變量。在實際銷售工作中，通常是先有銷售費用，然後去推銷，然後再有銷售收入，是以銷售費用是自變量，銷售收入是因變量。

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一2.1　基本概念和術語

繼續閱讀

LabelImg的安裝與使用（Anaconda環境）Labellmg的安裝

windows10 64bit + Anaconda + python3.5 安裝xgboost的一種簡單方法

資料挖掘-歸一化

Anaconda：Matpotlib工具安裝

anaconda安裝及使用小技巧anaconda使用小技巧

Anaconda環境配置

一、Python資料挖掘（環境篇——Anaconda與Jupyter Notebook）一、Python資料挖掘（環境篇——Anaconda與Jupyter Notebook）

Anaconda3安裝face_recognitionAnaconda3(python3.7.4)安裝face_recognition

資料挖掘中的隐私保護

資料挖掘研究内容和本質（轉）

資料挖掘分類技術

淺談資料挖掘評估技術

資料挖掘001

從大資料看技術，為什麼天貓雙11是史上最大數字經濟節日

用Matlab搞計算機視覺是怎樣的體驗？

在weka中內建自己的算法

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一2.1 基本概念和術語

繼續閱讀

《資料分析實戰:基于EXCEL和SPSS系列工具的實踐》一2.1　基本概念和術語