天天看點

AI入門知識及資料整理1.人工智能概念2.擷取資料與特征工程3.模型訓練

現在我們談的人工智能大多數都是指的是機器學習,下面我就介紹一下關于機器學習等一些概念及學習路線。

機器學習概念

  • 1.人工智能概念
    • 人工智能、機器學習與深度學習
    • 模式識别
    • 預測任務
    • 推薦算法
    • 分布式
    • 容錯性
    • 協同過濾
  • 2.擷取資料與特征工程
    • 資料集
    • 離散資料、連續資料
    • 特征、特征向量、樣本、标簽
    • 遞歸、疊代、并行
    • PCA,降維
    • 分布、主題分布、⻓尾分布
    • 特征選擇
  • 3.模型訓練
    • 梯度下降
    • 表征學習
    • 監督學習和非監督學習
    • BP神經網絡
    • 過拟合,欠拟合

1.人工智能概念

人工智能、機器學習與深度學習

1.人工智能

網上關于人工智能的介紹的有很多說法,不過在《計算機科學導論》原書是這樣說的

AI入門知識及資料整理1.人工智能概念2.擷取資料與特征工程3.模型訓練

想深入了解的話,可以找度娘或者去找一些關于AI綜述的論文看看,這裡就不在深入介紹,畢竟這篇部落格是給我們這種小白看的。

2.機器學習

機器學習是一門多領域交叉學科,涉及機率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模拟或實作人類的學習行為,以擷取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。它是人工智能的核心,是使計算機具有智能的根本途徑。它的應用已遍及人工智能的各個分支,如專家系統、自動推理、自然語言了解、模式識别、計算機視覺、智能機器人等領域。其中尤其典型的是專家系統中的知識擷取瓶頸問題,人們一直在努力試圖采用機器學習的方法加以克服。

3.深度學習

深度學習是指多層的人工神經網絡和訓練它的方法。一層神經網絡會把大量矩陣數字作為輸入,通過非線性激活方法取權重,再産生另一個資料集合作為輸出。這就像生物神經大腦的工作機理一樣,通過合适的矩陣數量,多層組織連結一起,形成神經網絡“大腦”進行精準複雜的處理,就像人們識别物體标注圖檔一樣。

深度學習是從機器學習中的人工神經網絡發展出來的新領域。早期所謂的“深度”是指超過一層的神經網絡。但随着深度學習的快速發展,其内涵已經超出了傳統的多層神經網絡,甚至機器學習的範疇,逐漸朝着人工智能的方向快速發展。

上面還說專門給小白看的,畫風轉的太快了哈。

不過知乎上面有個對這三者差別及聯系解釋的高贊文章,可以去看看,https://www.zhihu.com/question/57770020,感興趣可以去看看,寫的确實挺好的。

模式識别

1.什麼是模式識别

模式識别是指人類的一項基本智能,在日常生活中,人們經常在進行“模式識别”。随着20世紀40年代計算機的出現以及50年代人工智能的興起,人們當然也希望能用計算機來代替或擴充人類的部分腦力勞動。(計算機)模式識别在20世紀60年代初迅速發展并成為一門新學科。

模式識别是指對表征事物或現象的各種形式的(數值的、文字的和邏輯關系的)資訊進行處理和分析,以對事物或現象進行描述、辨認、分類和解釋的過程,是資訊科學和人工智能的重要組成部分。

  

模式識别就是通過計算機用數學技術方法來研究模式的自動處理和判讀,把環境與客體統稱為“模式”。随着計算機技術的發展,人類有可能研究複雜的資訊處理過程,其過程的一個重要形式是生命體對環境及客體的識别。

模式識别以圖像處理與計算機視覺、語音語言資訊處理、腦網絡組、類腦智能等為主要研究方向,研究人類模式識别的機理以及有效的計算方法。

這裡也推薦一篇部落格,對模式識别也介紹的很形象,https://blog.csdn.net/eternity1118_/article/details/51105659

2.幾種常⻅模式識别算法整理和總結

這裡就不介紹了,畢竟這篇部落格隻介紹一些基礎知識。

這裡也推薦一篇部落格:https://blog.csdn.net/scyscyao/article/details/5987581?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase

預測任務

通俗點講就是通過已知資訊得到未知資訊。例如在銀行業,通過客戶的個人信用資訊來評價個人的借貸⻛險。

在預測任務中,我們希望模型盡可能地精确,相反預測模型f的形式可能是一個黑箱模型(即模型的本身我們不能很好的解釋或者并不清楚,我們更加關心這當中的輸入和輸出,并不試圖考察其内部結構),隻要能夠提高我們的 預測精度我們就認可達到目的了。一般認為,神經網絡模型屬于黑箱模型,如幾年前Google X實驗室開發出一套具有自主學習能力的神經網絡模型,它能夠從一千萬中圖 片中找出那些有小貓的照片。在這裡,輸入就是這一千萬張圖檔,輸出就是對于這些圖檔的識别。

這裡還有一個控制任務,就不再介紹了,這裡有篇知乎的文章寫的不錯,https://www.zhihu.com/question/45536799

推薦算法

https://blog.csdn.net/App_12062011/article/details/85414969

分布式

分布式計算是計算機科學中一個研究方向,它研究如何把一個需要非常巨大的計算能力才能解決的問題分成許多小的部分,然後把這些部分配置設定給多個計算機進行處理,最後把這些計算結果綜合起來得到最終的結果。分布式網絡存儲技術是将資料分散地存儲于多台獨立的機器裝置上。分布式網絡存儲系統采用可擴充的系統結構,利用多台存儲伺服器分擔存儲負荷,利用位置伺服器定位存儲資訊,不但解決了傳統集中式存儲系統中單存儲伺服器的瓶頸問題,還提高了系統的可靠性、可用性和擴充性。

簡單點講就是将資料分散到多個伺服器進行資料訓練,以滿足多資料的算力運算。

容錯性

是使系統在部分元件(一個或多個)發生故障時仍能正常運作的能力。

每個伺服器有可能出現意外導緻資料丢失,系統依然能保持繼續運作。

協同過濾

協同過濾簡單來說是利用某興趣相投、擁有共同經驗之群體的喜好來推薦使用者感興趣的資訊,個人通過合作的機制給予資訊相當程度的回應(如評分)并記錄下來以達到過濾的目的進而幫助别人篩選資訊,回應不一定局限于特别感興趣的,特别不感興趣資訊的紀錄也相當重要。

2.擷取資料與特征工程

資料集

訓練集:用來拟合模型,通過設定分類器的參數,訓練分類模型。

驗證集:用以确定模型超參數,選出最優模型。

測試集:僅用于對訓練好的最優函數進行性能評估。

離散資料、連續資料

離散變量是指其數值隻能用自然數或整數機關計算的則為離散變量.例如,企業個數,職勞工數,裝置台數等,隻能按計量機關數計數,這種變量的數值一般用計數方法取得。

在一定區間内可以任意取值的變量叫連續變量,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值.例如,生産零件的規格尺寸,人體測量的身高,體 重,胸圍等為連續變量,其數值隻能用測量或計量的方法取得。

特征、特征向量、樣本、标簽

特征是一個客體或一組客體特性的抽象結果。特征是用來描述概念的。任一客體或一組客體都具有衆多特性,人們根據客體所共有的特性抽象出某一概念,該概念便成為了特征。在數學中,特征是經典特征函數在局部域上的一種推廣。

簡單來說:特征是輸入變量,即簡單線性回歸中的 x 變量。

特征向量:

https://blog.csdn.net/woainishifu/article/details/76418176

标簽是我們要預測的事物,即簡單線性回歸中的 y 變量。标簽可以是小麥未來的價格、圖檔中顯示的動物品種、音頻剪輯的含義或任何事物。

樣本:樣本(specimen)是觀測或調查的一部分個體,總體是研究對象的全部。

遞歸、疊代、并行

遞歸(recursion),指的是一個函數不斷調用自身的行為。比如,以程式設計方式輸出著 名的斐波納契數列。(線性遞歸和尾遞歸。)

疊代(iterate),指的是按照某種順序逐個通路清單中的每一項。比如,for語句。

疊代隻能對應集合,清單,數組等。不能對執行代碼進行疊代。

并行:多線程

PCA,降維

是一種常⻅的資料分析方式,常用于高維資料的降維,可用于提 取資料的主要特征分量。

https://blog.csdn.net/zouxiaolv/article/details/100590725

分布、主題分布、⻓尾分布

LDA處理文檔主題分布:

https://www.jianshu.com/p/67ec0762e07a

⻓尾分布:除了正态分布,其他均為⻓尾分布。

特征選擇

進行特征選擇的主要目的:降維、降低學習任務的難度、提升模型的效率

https://blog.csdn.net/hren_ron/article/details/80914491

常⻅方法:

https://blog.csdn.net/qq_33876194/article/details/88403394

還有矢量、标量、多項式、歸一化、正例樣本、負例樣本、類别集合、待分類項、序列、向量序列、自變量、因變量、分詞,分詞器、特征提取等等就不一一介紹了。

3.模型訓練

梯度下降

梯度下降是疊代法的一種,可以用于求解最小二乘問題(線性和非線性都可以)。在求解機器學習算法的模型參數,即無限制優化問題時,梯度下降(Gradient Descent)是最常采用的方法之一,另一種常用的方法是最小二乘法。在求解損失函數的最小值時,可以通過梯度下降法來一步步的疊代求解,得到最小化的損失函數和模型參數值。反過來,如果我們需要求解損失函數的最大值,這時就需要用梯度上升法來疊代了。在機器學習中,基于基本的梯度下降法發展了兩種梯度下降方法,分别為随機梯度下降法和批量梯度下降法。

表征學習

将原始資料轉換成為能夠被機器學習來有效開發的一種形式。它避免了手動提取特征的麻煩,允許計算機學習使用特征的同時,也學習如何提取特征:學習如何學習。

監督學習和非監督學習

https://blog.csdn.net/GodDavide/article/details/102677973

BP神經網絡

反向傳播的神經網絡

https://blog.csdn.net/robert_chen1988/article/details/99237827

過拟合,欠拟合

過拟合:訓練集準确率高,測試集準确率特别低;欠拟合:訓練集、測試集表現都不好

這裡隻介紹一些比較常見的基礎的在機器學習裡面的名詞。

寫這篇的部落格亦是歸納總結,亦是對自己學習路線的一種規劃。

待續…

繼續閱讀