天天看點

《機器學習與R語言(原書第2版)》一 第1章 機器學習簡介

如果科幻故事是可信的,那麼人工智能的發明将會不可避免地導緻機器和其制造者之間的末日戰争。在計算機使用的早期,計算機被教會玩井字棋和國際象棋這樣一些簡單的遊戲。後來,機器被用來控制交通信号燈和通信,随後用來控制軍用無人機和飛彈。一旦計算機有感覺力并且知道如何教會自己,機器的發展将産生不祥的改變:計算機不再需要人類程式員了,人類那時也就被“删除”(deleted)了。

幸運的是,在寫本書的時候,機器還是需要使用者來進行輸入的。

盡管你對機器學習的印象可能如那些大衆媒體所描述的那樣豐富多彩,但是現在的算法太注重特定的應用,是以不會呈現出具有自我意識那樣的危險。現在機器學習的目标不是創造人工大腦,而是幫助我們使世界上的海量資料存儲具有意義。

把這些誤解放在一邊,在本章結束時,你會對機器學習有更加清晰的了解。本章将介紹一些基本概念,通過它們來定義和區分常用的機器學習方法。

本章中,你将學到下列知識:

機器學習的起源及其實際應用。

計算機如何将資料轉換為知識和行動。

如何為資料比對機器學習算法。

機器學習領域提供了把資料轉換成可行動的知識的算法集合。繼續閱讀可以了解使用r将機器學習應用到現實世界中的問題是多麼容易。

自出生以來,我們就和各種資料打交道。我們身體的感官—眼睛、耳朵、鼻子、舌頭以及神經一直被資料包圍着,大腦把它們轉化成視覺、聽覺、嗅覺、味覺和感覺。通過語言的交流,我們得以和他人分享這些感受。

從書面語言出現,人們的觀測就被記錄下來。獵人監視動物群體的移動,早期的宇航員記錄行星和恒星的模式,城市記錄稅收、出生和死亡情況。現在,由于不斷發展的計算機資料庫的應用,這些觀察的過程逐漸自動化,記錄也變得系統化。

電子傳感器的發明使得可以記錄的資料的數量和資源呈爆炸式增長。專用的傳感器可以觀測、可以聽聲音、可以聞味道,也可以感受環境。這些傳感器處理資料的方式和人類完全不同。與人類的有限且主觀的注意力不同,電子傳感器從不休息并且從來不會讓它的判斷扭曲它所感覺到的。

盡管傳感器不會被主觀成分模糊判斷,但是它們也不一定給出現實情況的單一且确定性的描述。由于硬體的限制,有些傳感器有固有測量誤差,另一些受觀測範圍的限制。與拍攝彩色照片的相機相比,拍攝黑白照片的相機可能會給出與其拍攝物完全不同的寫照。類似地,顯微鏡對事實的描繪和望遠鏡的描繪也是截然不同的。

通過資料庫和傳感器,我們生活的方方面面都被記錄下來。政府、企業和個人都在記錄并報告他們生活中的資訊。氣象傳感器記錄溫度和氣壓,監視探頭監視着人行道和地鐵站,各種電子行為如交易、通話、建立友好關系等都會被監控。

根據如此龐大的資料量,一些人聲稱我們進入了大資料的時代,這可能有一點嘩衆取寵。人類總是身處大量的資料之中。使當今這個時代變得與衆不同的是我們有大量的記錄資料,它們大部分可以直接用計算機來通路。僅僅一次網絡搜尋,經過手指的點選,大量有趣的資料就變得更容易擷取。隻要有了解資料的系統方法,這些大量資訊就會成為有潛力的決策資訊。

機器學習的研究領域是發明計算機算法,把資料轉化為智能行動。這個領域是在現有資料、統計方法以及計算能力迅速并且同步發展的環境下發展起來的。資料量的增加使得計算能力增強成為必需條件,而計算能力的增強又反過來促進了分析大資料的統計方法的發展。這就創造了一個閉環式的發展,它使得更多更加有趣的資料得以收集。

《機器學習與R語言(原書第2版)》一 第1章 機器學習簡介

機器學習的一個緊密相關的學科是資料挖掘,它涉及從大型的資料庫中産生新的洞察。如其名稱所示,資料挖掘是系統地尋找可以用于行動的有價值的資訊。盡管對于這兩個領域究竟有多少重疊存在一些争議,但是一個可能的差别是機器學習側重于教計算機如何利用資料來解決問題,而資料挖掘則側重于教計算機識别模式,然後人類可以用該模式來解決問題。

幾乎所有的資料挖掘都涉及機器學習,而并不是所有的機器學習都涉及資料挖掘。例如,你可能應用機器學習來挖掘汽車交通資料中與事故率有關的模式;另一方面,如果是計算機自己學習如何駕駛汽車,那麼就是沒有資料挖掘的純粹機器學習。

“挖掘資料”有時用作一個貶義詞,用來描述挑選最合适的資料來支援某個理論的欺騙性行為。