一、背景
大資料時代到來。資料得到了極大豐富,但是知識卻極其匮乏。
簡單來說:這門課就是現在産生資料的方式多了,資料量爆炸,但是資料太多不好處理,得不到關鍵資訊,就要采用某些方法提取有用資訊,資料挖掘應運而生。
這門課程将資料挖掘放在地理上,就是空間資料挖掘。這門課分兩部分,資料挖掘和應用到地理上的一些算法。
二、定義
資料挖掘:從大量資料中提取或發現(挖掘)有趣模式和知識的過程。
另外一種定義是從資料集中識别出有效的、新穎的、潛在有用的,以及最終可了解的模式的非平凡過程。
衆所周知,定義除了考試中回答名詞解釋沒什麼卵用,了解就好~這個定義槽點太多。
有趣:意思就是我覺得好玩就行,我有興趣就可以,如果恰好有比較好的結果,那就是一篇paper。(衆所周知,科研是有趣的)
有效的:結論還有别的适用情況。
新穎的:别人沒想到/懶得做的。
潛在有用性:結論能在生活中做出一點微小的貢獻。
最終可了解性:我知道你會知道我知道的。
非平凡:正在進行的資料挖掘過程是偉大的!
三、過程
過程分三步:資料準備(米),資料挖掘(巧婦),結果解釋(炊/吹)。
能不能得到好的結果靠前兩項,有沒有paper靠吹。
課件裡面一句話巨真實,看的時候笑出聲。嚴肅的來說,科研是曲折的。(噗嗤)
資料準備過程中,資料一般用各種資料庫和資料倉庫進行存儲與管理。
資料挖掘,用各種技術挖掘“有趣”的模式。(真心覺得不如把有趣改成有用)
(又講了一遍定義...)
至于各種技術的思路,都非常符合正常人的想法:篩選和窮舉。
篩選:選出所有的模式,過濾無趣的。
窮舉:僅找有趣的模式(我認為有趣的就是有趣的,這種方法像不像“海底撈”)。
具體方法大概可以整理到下面這張圖。
之後給出一些資料挖掘的工具,無非就是R語言,Python,Java的統計分析工具,在此就不叨叨了。
而關于結果解釋,主要和研究者應用目的相關。(恰恰是我研究的就是有趣的,嗯,搞科研的正常心态)但不得不說确實資料挖掘在如今商業化分析中占有重要地位。
四、空間資料挖掘
最後回到專業——空間資料挖掘。
定義:是在空間資料集合中發現知識,提取感興趣的空間模式和特征、空間資料與非空間資料之間的聯系以及其它資料特點的過程。
主要研究空間資料的機率分布模式、聚類和分類特征、屬性間的依賴關系以及時空自相關和互相關特征等。
簡單來說:在地圖上加載海量資料,提取好玩的規律。
難點:空間資料的複雜性(資料量大),空間關系(地圖自帶),空間自相關性(我在故我在,而有的就不能在,有的必須在)。
空間資料挖掘的主要内容
最後也是給了一些主要的空間資料挖掘方法和工具。
工具:Arcgis,GeoDA,資料挖掘的傳統工具。