機器學習模型的好壞,通常透過模型指標或者商業指標來界定,而學術界的SOTA [1]模型通常是指模型指標,這潛藏著什麼風險呢?
#38
目錄
- 機器學習模型的好壞
- 模型指標與商業指標
- 指標能夠反映模型的全貌?
- SOTA 模型代表著什麼?
- 總結
一、機器學習模型的好壞
不論是情緒分類、惡意留言檢測、商品推薦、圖片分類還是用戶流失模型,都需要在建立之後,透過一個評斷方式去比較模型的好壞,最常見的方式就是透過模型指標以及商業指標!
二、模型指標與商業指標
模型指標通常是在線下就可以使用,比如惡意留言檢測的分類準確率(Accuracy);而商業指標通常是上線才可以測試,比如用戶的平均消費。
可以看到模型指標可以評估模型的好壞,但通常公司更看重對於商業面真正發揮了什麼影響,但因為線下通常無法直接測試商業指標,才透過模型指標去間接評估。值得注意的是,通常模型指標儘量設計、選擇與商業指標方向一致。
因此,通常我們都是在線下的時候透過模型指標去快速實驗,找出最佳的模型,再上線部署後,也許透過 A/B Testing 進行商業指標的評估,來確定最終的模型。
三、指標能夠反映模型的全貌?
做過分類問題的讀者可能還記得,有些分類問題會遇到樣本不平衡[2]的狀況,比如惡意留言比例大約只佔了平台上 0.01 %的比例,那麼準確率(Accuracy = 預測正確的樣本數 / 所有的樣本總數) 95%算是好嗎 ? 直接預測所有留言都是非惡意的似乎也可以達到 99.99% 的準確率,直接看數字會覺得表現非常好,但實際上可以發現無法正確反映模型的能力。
若改用 precision, recall 在樣本不平衡下,就可以較為正確地反映出模型表現,這個例子可以看出模型指標是不全面的,隱藏選擇模型指標要特別小心!至於要選擇哪一個模型指標,就跟具體要解決的問題相關。
四、SOTA 模型代表著什麼?
SOTA 應該是偏向建立機器學習模型的從業者常常會研讀最新論文時,會看到的名詞,針對一些問題的標準資料集在特定的指標上表現是當前最佳。
舉例來說,有個學者建立了一個新的文本分類模型,假設有5個常用的標準文本資料集,並主要透過準確度當作評估標準,就實驗發現後,發現這個新的模型,都是達到當前最佳,那就可以稱為SOTA。
但這代表「所有」文本分類問題都適合使用這個模型嗎?
答案是:不盡然。
因為可以發現,畢竟世界上的文本分類議題無窮無盡,主要原因在於:
1. 文本分類資料本身的差異性可能非常之大:論文通常只在「有限」的資料集上進行測試。
2. 文本分類問題的模型指標不盡相同:若論文是主要探討準確度,而我們的議題則是更在乎 precision ,那麼參考性就有待商榷了。
五、總結
綜上所述,我們了解到
- 模型透過模型指標或者商業指標來比較效果。
- 模型指標通常用於線下快速測試;商業指標用於線上測試。
- 模型指標、商業指標只能反映出模型的部分效果,需要選擇與商業效益最接近的指標來評估。
- SOTA 模型說在特定資料集上、特定指標表現最佳的模型,當問題、指標雷同時,是很好的參考方向,但不代表在所有類似問題上都是最佳模型。
希望這篇讓大家對於指標的侷限以及 SOTA 模型需注意之處有了更多的了解!在實際執行上,都可以選擇正確的指標以及合適的模型進行嘗試!
- [1] State of the Art
- [2] 資料科學常見觀念:樣本不平衡
RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/4173