大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

第三節最大似然推導mse損失函數（深度解析最小二乘來源）在第二節中，我們介紹了高斯分布的來源，以及其機率密度函數對應的參數的解釋。本節的話，我們結合高斯分布從數學原理部分解釋為什麼損失函數是最小二乘。我們再來回歸下高斯分布的機率密度函數實際上是這個形式的：

那麼這個函數有什麼用？其實就是給一個X，就能知道X發生的可能性有多大？相當于給每一個X的一個得分。那麼我們回憶一下，在咱們講這機率論之前，咱們講的最後一個概念是什麼？最小二乘損失函數。我們由什麼推到最小二乘？實際上是由誤差的概念推導而來，

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

為什麼會有誤差？實際上因為咱們收集上來的特征不夠全面,咱們提出一個假設，就是說我之是以沒預測準，不是因為我模型不行，而是因為好多我該知道的事你沒告訴我，比如我想預測房價，你就告訴我一個房子尺寸，你沒告訴我這房子死沒死人，這是一兇宅，結果賣的很便宜，是以我們受到了好多個沒有收集到的因素得影響，産生了一個誤差，我們叫做ε，而這個東西和我們講的高斯分布是不是就有點能聯系上。那麼誤差本身是大是小，應該服從一個什麼分布最合理，誤差究竟怎麼來的？其實是由好多個沒統計到的随機變量X共同決定着誤差是大是小的。這麼多沒統計到的随機變量，是以我假設誤差服從高斯分布是不是最合理？。我沒說它一定就客觀上服從高斯分布，但你也不知道它服從什麼分布的情況下，就硬讓你服從一個分布，你選什麼你隻能選高斯分布。因為适用性最廣。是以我們的線性回歸裡面核心的一點就是它認為背後的誤差是服從一個均值為零的高斯分布的。誤差為什麼均值為零？假設就是這麼假設的,你想誤差如果均值不為零的話，那就說明你這條線整個就偏了,假如普遍大家都有1的誤差，有的比1小點，有的比1大點，說明你此時的θ肯定不是最好的θ。你一旦将θ調整到最好了之後，你的誤差一定均值得為零，因為你的基準線一定要落在你預測的這條線上才對。如果你想你的誤差是服從一個均值為1，方差為某個數的高斯分布，那說明大家普遍都差了1，說明你這個預測不是最好的預測，你普遍都差着呢。既然均值為零，是以誤差有的往正的偏，有的往負的偏，你偏得越多的點應該越少，偏的越少的點應該越多，這樣才能滿足誤差為零。這個理論和假設實際上是線性回歸的基石，就是它沒有任何道理，當然也不能說沒有一點道理，還是有一些道理的，假設誤差服從一個均值為零的高斯分布，這點大家是否能夠明白，能夠意識到它是合理的，為什麼要用高斯分布估計它？因為它是若幹個你沒看到的X共同影響的那麼一個結果，這些

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

不一定是相加的關系，沒關系，反正我也不知道它是怎麼回事，我幹脆就拿高斯分布來做，至少這個東西不會差的太多。好的，至此為止，你已經了解了線性回歸模型的假設，并且能體會到它有一定的道理。那麼我們接着講誤差的事。看下面的公式：

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

咱們逐個元素的去分析公式中的含義，

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

代表第i條資料預測值與真實值之間的差距。

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

整體是我們的預測值，

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

是我們的真實值。那麼預測值中的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

代表什麼呢？這裡不免講到一個學科叫做線性代數，我個人的了解，線性代數就是一種簡化标記法，比如我要寫

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

,寫的很累，很長，因為老寫這一長串的東西，于是我們幹脆引入一個向量的概念，用W乘以X的轉置，就等于上面的這些東西，它就是一種運算的定義。即

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

怎麼解釋上面公式？此時的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

通常在咱們手寫的時候，通常會寫成

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

，這就是向量的意思。那什麼叫向量？假如說我的W向量為

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

是什麼意思呢？此時

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

不再是一個實數了，而是由三個實數構成的這麼一個集合體，你就簡單地把它聯系了解成三個數的一個組合，把三數放一塊，我把三個數硬生生寫成一個字母，要不我還得稱它

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

,好麻煩！，是以我們直接稱它叫

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

向量，其中它的第一個元素是1，第二個元素是2，第三個元素是3，它們三個整體構成了一個叫做三維向量，因為它是由三個元素構成的。向量為了友善運算，定義了行向量和列向量，橫着寫的就叫行向量，豎着寫的叫列向量。這些東西沒有什麼原因就這麼定義的，就是一個起名。我們把從行向量變成列向量的運算叫做轉置，比如

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

，它的轉置就是豎着寫下上面的向量。為什麼要轉來轉去？因為我們定義了行向量乘以列向量這種運算。我們此時對于這個例子來說，A向量乘以B向量的轉置，假設A是行向量

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

，B是列向量

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

的轉置

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

。那麼一個行向量乘一個列向量怎麼定義？就是行的第一個元素乘以列向量的第一個元素的結果，加上行的第二個元素乘以列向量的第二個元素結果，加上行的第三個元素乘以列向量的第三個元素的結果，就是

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

。那麼

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

這個公式就可以借用上面行向量乘以列向量的表示方式。我們通常把

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

都定義為列向量，那麼

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

的本身是

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

的一個列向量，

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

就是

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

的一個行向量。那麼

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

怎麼解釋？每一條資料x是不是有n個次元，X本身是不是也可以給它寫成一個向量？我們就直接寫

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

向量就包含了這一條資料的所有次元了，當它為列向量的情況下，

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

就變成了一個行向量乘以列向量的形式。是以目前為止就把線性代數當作一種運算的簡寫方式。際上你就把這想成就是一個暗号，你看到這個暗号，你就知道它背後根據向量的乘法的定義會得到一個這樣的結果，就是

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

，也就是

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

這麼一個結果，它計算出來的結果是什麼？就是我們的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

，也就是我們的預測值。那麼

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

是不是就是我們的真實值？剛好符合我們的公式。我們總結下上面說的核心。誤差是由我們多個未觀測到的屬性或者叫特征決定的，多個未觀測到的屬性共同決定誤差，我們應該假設它符合同一個高斯分布，什麼樣的高斯分布呢？就是誤查服從一個均值為零，方差雖然你不知道，但一定也是某個确定的值的高斯分布。好，上面的核心你已了解，我們就可以引入一個機率的問題，一個可能性問題。既然誤差服從均值為零的高斯分布，那誤差自己的機率密度函數寫出來如下：

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

某一個誤差發生的機率是不是就應該等于上面的公式。用心觀察一下這個式子怎麼來的？還記得高斯分布的機率密度函數嗎？

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

對比發現是不是隻有

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

變了，為什麼變了？均值為零，它本來應該減個零，把減零去掉了。那麼每個樣本被采樣到的機率也應該為：

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

上面公式要怎麼了解呢？那麼假如有一個樣本，預測的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

是1.6，真實的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

是2.0，那麼它的誤差

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

是0.4，帶入誤差的機率密度函數是不是可以計算出0.4發生的機率是有多大？而

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

為0.4發生就代表一個真實結果為2.0的值被你取到了。因為你預測的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

已經算出來了就等于1.6了，是以它們是可以唯一互相确定的，這點要想透。

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

這個叫做條件機率，表示在已知

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

的情況下，

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

發生的機率。其實換個角度也能了解，就是因為

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

這個公式，是以把樣本被采樣到的機率中

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

替換成

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

，結果是一樣的，隻不過我們要從實際含義去了解。既然知道每個樣本采樣到的機率後，那我們來計算這個機率。可以發現這裡面真正變得是

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

，因為其他參數都是已知，假如

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

全等于0，你算出來的是一個機率，假如

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

全等于1，算出來是另一個機率，也就是說每一條樣本被采樣到的可能性是随着

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

的變化而變化的。這是某一條樣本被采樣到的機率，而最終所有的樣本都被你采樣到了。比如說你拿到了1萬條資料，拿第一條資料，是不是有一組

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

，有一個

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

,分别是

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

和

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

，帶進去上面的機率公式，得到一個關于

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

的一個表達式。隻要

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

确定，結果也就确定了。那麼第一條樣本被抽樣到的機率是一個關于

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

的表達式，第二個樣本被抽樣到的機率也是一個關于

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

的表達式，跟第一個表達式不一樣，因為帶進去的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

跟

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

是不一樣的，這樣下去，你會得到1萬個表達式，每個表達式代表每一個點被抽樣到的機率，1萬個點共同的被抽樣到了，那麼你通通把它乘起來，就代表這1萬個點共同被你抽樣到的機率，得到了一個總的機率。總的機率是高是低取決于誰？

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

已知

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

已知，是以總機率高低取決于

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

，

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

變一變，這總機率就變一變。那麼你希望找到的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

是使總機率越高還是越低越好？因為你已經抽樣到了這些資料，你最合理的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

應該能讓樣本總體被抽樣到的機率越高越好，

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

才越趨近于真實。我們稱這種思想叫做極大似然估計（MLE）。所謂似然就是上面說的1萬個

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

的表達式相乘的結果就叫似然，其實就是最大機率估計，隻不過民國時期翻譯那些經典的數學書籍的時候，把機率翻譯成了似然。由于訓練集上的樣本被抽選到這個随機事件是彼此獨立的，那麼訓練集上所有的樣本全部都被抽選到的機率轉換為數學公式就是：

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

通常我們稱上面的總機率函數為似然函數。那什麼樣的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

是最好的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

呢？能夠使這個式子最大的θ就是最好的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

。因為它代表整個訓練及被抽樣到的總機率，既然它已經發生的事情，機率理應最大，這樣

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

才最真實，否則

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

計算出來，這個機率沒有達到最大，說明給的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

不夠好，畢竟這些東西已經被你抽到了，這個機率還沒達到最高值，說明給的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

不夠合理。是以最大似然的思想就是已經抽樣到的樣本的總機率應該最大，而最合理的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

就應該是讓似然函數最大的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

。這一點隻要了解透了，後面的東西都很簡單，這是本節最大的重點，極大似然估計會出現在機器學習的方方面面。方方面面都會有極大似然估計，它的核心思想就是已經發生的機率理應最大，而且機率取決于誰？取決于

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

。我們不要忘記初心，我們機器學習，學習的是一組參數

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

，其實就是

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

，本質就想找到一組最好的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

，現在似然函數是不是相當于給了我們一個指導方針？能夠讓總機率最大（也就是似然函數最大）的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

就是最好的

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

。那麼這跟那MSE函數（損失函數）有什麼關系？我們回顧之前的知識，我們的目的是想找到一組一組參數

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

，即（

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

），使損失函數（MSE）最小，而本節講的是讓這組參數

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

（即

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

），使似然函數最大，那麼他們之間沖突嗎？要是能找到他們之間的關系，是不是所有的原理，無論從哪一方面都能解釋通了。是以下一節中，我們來解剖MSE和最大似然之間的真正關系。

轉載于:https://www.cnblogs.com/LHWorldBlog/p/10576628.html

大白話5分鐘帶你走進人工智能-第三節最大似然推導mse損失函數（深度解析最小二乘來源）（1）...

繼續閱讀

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

計算機開路人阿蘭·圖靈

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

基礎算法之二分查找

人工智能如何有效地運用于自然語言處理

poj3249

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

PAT 1089 Insert or Merge[難]

無人機--飛控科普