分類問題之損失函數

在機器學習和最佳化領域中，分類問題之損失函數可以用來表達預測不準確之程度，其中分類問題主要是用來判斷所偵測到的物件屬於什麼類別。將一個向量空間 $X$ 做為所有的輸入值，而向量空間 $Y=\{-1,1\}$ 做為所有的輸出值。我们希望能夠找到最佳的公式 $f:X\rightarrow \Re$ 將 ${\vec {x}}$ 映射到 $y$ ^[1]。然而，由于信息不完整、雜訊、计算過程中的非确定性模块等因素，有可能會有相同的輸入值 ${\vec {x}}$ 映射到不同的輸出值 $y$ ^[2]。因此，這個學習過程的目的就是要最小化預期風險（更详细的介绍参见统计学习理论），預期風險之定義為：

各种代理损失函数的曲线。蓝色为0–1指示函数，绿色为平方损失函数，紫色为铰链损失函数，黄色为逻辑损失函数。注意所有代理损失函数对

y = f (x = 0)

均给出1的惩罚。

I[f]=\textstyle \int _{X\times Y}^{}\displaystyle V(f({\vec {x}},y))p({\vec {x}},y)d{\vec {x}}dy

其中 $V(f({\vec {x}},y))$ 即損失函數，而 $p({\vec {x}},y)$ 為機率密度函數。而實作上概率分布 $p({\vec {x}},y)$ 通常是未知的，因此我们使用由数据样本空间中取出的 $n$ 個獨立且同分布（i.i.d.）的樣本點

S=\{({\vec {x_{1}}},y_{1}),...,({\vec {x_{n}}},y_{n})\}

作为训练集，將樣本空間所得到的经验風險做為預期風險的替代，其定義為：

I_{S}[f]={\frac {1}{n}}\sum _{i=1}^{n}V(f({\vec {x_{i}}},y_{i}))

基於分類問題的二元性，可定義0-1函數做為匹配值之基準。因此損失函數為：

V(f({\vec {x}},y))=H(-yf({\vec {x}}))

其中 $H$ 為步階函數。然而損失函數並不是凸函數或平滑函數，是一種NP-hard的問題，因此做為替代，需要使用可以追蹤的機器學習演算法（透過凸損失函數）。

分類問題之界線编辑

使用貝式定理，可以基於問題的二元性最佳化映射公式 $f^{*}$ 為：

f^{*}({\vec {x}})={\begin{cases}1,&{\text{if }}p(1\mid {\vec {x}})>p(-1\mid {\vec {x}})\\-1,&{\text{if }}p(1\mid {\vec {x}})<p(-1\mid {\vec {x}})\end{cases}}

當 $p(1\mid {\vec {x}})\neq p(-1\mid {\vec {x}})$

簡化分類問題預期風險编辑

{\begin{alignedat}{4}I[f(x)]&=\int _{X\times Y}^{}V(f({\vec {x}},y))p({\vec {x}},y)d{\vec {x}}dy\\&=\int _{X}^{}\int _{Y}^{}V(f({\vec {x}},y))p({\vec {x}},y)p({\vec {x}})dyd{\vec {x}}\\&=\int _{X}^{}[V(-f({\vec {x}})p(1\mid x)+V(f({\vec {x}})p(-1\mid x)]p({\vec {x}})d{\vec {x}}\\&=\int _{X}^{}[V(-f({\vec {x}})p(1\mid x)+V(f({\vec {x}})(1-p(1\mid x))]p({\vec {x}})d{\vec {x}}\end{alignedat}}

平方損失编辑

V(f({\vec {x}},y))=(1-yf({\vec {x}}))^{2}

平方損失凸且平滑，但容易過度懲罰錯誤預測，導致收斂速度比邏輯損失和鏈結損失慢。它的優點為有助於簡化交叉驗證之正則化（regularization）。

最小化預期風險之映射函數為：

f_{Square}^{*}=2p(1\mid x)-1

鏈結損失编辑

V(f({\vec {x}}),y)=\max(0,1-yf({\vec {x}}))=|1-yf({\vec {x}})|_{+}

鏈結損失公式等同於支持向量機（SVM）的損失公式。鏈結損失凸但不平滑（在 $yf({\vec {x}}))=1$ 不可微分），因此不適用於梯度下降法和隨機梯度下降法，但適用次梯度下降法。最小化預期風險之映射函數為：

f_{Square}^{*}=2p(1\mid x)-1

廣義平滑鏈結損失编辑

f_{\alpha }^{*}(z)\;=\;{\begin{cases}{\frac {\alpha }{\alpha +1}}&{\text{if }}z<0\\{\frac {1}{\alpha +1}}z^{\alpha +1}-z+{\frac {\alpha }{\alpha +1}}&{\text{if }}0<z<1\\0&{\text{if }}z\geq 1\end{cases}}

其中 $z=yf({\vec {x}})$

邏輯損失编辑

V(f({\vec {x}}),y)={\frac {1}{\ln 2}}\ln(1+e^{-yf({\vec {x}})})

適用於梯度下降法，但不會對錯誤預測做懲罰。最小化預期風險之映射函數為：

f_{\text{Logistic}}^{*}=\ln \left({\frac {p(1\mid x)}{1-p(1\mid x)}}\right).

交叉熵損失编辑

V(f({\vec {x}}),t)=-t\ln(f({\vec {x}}))-(1-t)\ln(1-f({\vec {x}}))

其中 $t=(1+y)/2$ so that $t\in \{0,1\}$ 屬於凸函數，適用於隨機梯度下降法。

指數損失编辑

V(f({\vec {x}}),y)=e^{-\beta yf({\vec {x}})}

参考资料编辑

^ Shen, Yi, Loss Functions For Binary Classification and Class Probability Estimation (PDF), University of Pennsylvania, 2005 [6 December 2014], （原始内容 (PDF)于2019-06-14）
^ Rosasco, Lorenzo; Poggio, Tomaso, A Regularization Tour of Machine Learning, MIT-9.520 Lectures Notes, Manuscript, 2014

[penn-1] Shen, Yi, Loss Functions For Binary Classification and Class Probability Estimation (PDF), University of Pennsylvania, 2005 [6 December 2014], （原始内容 (PDF)于2019-06-14）

[mitlec-2] Rosasco, Lorenzo; Poggio, Tomaso, A Regularization Tour of Machine Learning, MIT-9.520 Lectures Notes, Manuscript, 2014

[1]

[2]

www.wiki2.zh-cn.nina.az

分類問題之損失函數

目录

分類問題之界線编辑

簡化分類問題預期風險编辑

平方損失编辑

鏈結損失编辑

廣義平滑鏈結損失编辑

邏輯損失编辑

交叉熵損失编辑

指數損失编辑

参考资料编辑

Mk.VII騎兵巡航坦克

Mk 54型魚雷

Mr.5 (專輯)

Mr.FULLSWING強棒出擊

Mr. Moonlight 〜愛的Big Band〜

Ms.OOJA

Mutt

Mukdenia rossii

Mullerister

Multan

兰州 (隋朝)

兰帕瑟斯县 (德克萨斯州)

兰开斯特县 (南卡罗来纳州)

兰开斯特 (纽约州)

兰开驰

文章

分類問題之界線 编辑

簡化分類問題預期風險 编辑

平方損失 编辑

鏈結損失 编辑

廣義平滑鏈結損失 编辑

邏輯損失 编辑

交叉熵損失 编辑

指數損失 编辑

参考资料 编辑

文章

分類問題之界線编辑

簡化分類問題預期風險编辑

平方損失编辑

鏈結損失编辑

廣義平滑鏈結損失编辑

邏輯損失编辑

交叉熵損失编辑

指數損失编辑

参考资料编辑