機器學習模型的好壞，通常透過模型指標或者商業指標來界定，而學術界的SOTA [1]模型通常是指模型指標，這潛藏著什麼風險呢？

#38

一、機器學習模型的好壞

不論是情緒分類、惡意留言檢測、商品推薦、圖片分類還是用戶流失模型，都需要在建立之後，透過一個評斷方式去比較模型的好壞，最常見的方式就是透過模型指標以及商業指標！

二、模型指標與商業指標

模型指標通常是在線下就可以使用，比如惡意留言檢測的分類準確率(Accuracy)；而商業指標通常是上線才可以測試，比如用戶的平均消費。

可以看到模型指標可以評估模型的好壞，但通常公司更看重對於商業面真正發揮了什麼影響，但因為線下通常無法直接測試商業指標，才透過模型指標去間接評估。值得注意的是，通常模型指標儘量設計、選擇與商業指標方向一致。

因此，通常我們都是在線下的時候透過模型指標去快速實驗，找出最佳的模型，再上線部署後，也許透過 A/B Testing 進行商業指標的評估，來確定最終的模型。

三、指標能夠反映模型的全貌？

做過分類問題的讀者可能還記得，有些分類問題會遇到樣本不平衡[2]的狀況，比如惡意留言比例大約只佔了平台上 0.01 %的比例，那麼準確率(Accuracy = 預測正確的樣本數 / 所有的樣本總數) 95%算是好嗎 ? 直接預測所有留言都是非惡意的似乎也可以達到 99.99% 的準確率，直接看數字會覺得表現非常好，但實際上可以發現無法正確反映模型的能力。

若改用 precision, recall 在樣本不平衡下，就可以較為正確地反映出模型表現，這個例子可以看出模型指標是不全面的，隱藏選擇模型指標要特別小心！至於要選擇哪一個模型指標，就跟具體要解決的問題相關。

四、SOTA 模型代表著什麼？

SOTA 應該是偏向建立機器學習模型的從業者常常會研讀最新論文時，會看到的名詞，針對一些問題的標準資料集在特定的指標上表現是當前最佳。

舉例來說，有個學者建立了一個新的文本分類模型，假設有5個常用的標準文本資料集，並主要透過準確度當作評估標準，就實驗發現後，發現這個新的模型，都是達到當前最佳，那就可以稱為SOTA。

但這代表「所有」文本分類問題都適合使用這個模型嗎？

答案是：不盡然。

因為可以發現，畢竟世界上的文本分類議題無窮無盡，主要原因在於：

1. 文本分類資料本身的差異性可能非常之大：論文通常只在「有限」的資料集上進行測試。

2. 文本分類問題的模型指標不盡相同：若論文是主要探討準確度，而我們的議題則是更在乎 precision ，那麼參考性就有待商榷了。

五、總結

綜上所述，我們了解到

模型透過模型指標或者商業指標來比較效果。
模型指標通常用於線下快速測試；商業指標用於線上測試。
模型指標、商業指標只能反映出模型的部分效果，需要選擇與商業效益最接近的指標來評估。
SOTA 模型說在特定資料集上、特定指標表現最佳的模型，當問題、指標雷同時，是很好的參考方向，但不代表在所有類似問題上都是最佳模型。

希望這篇讓大家對於指標的侷限以及 SOTA 模型需注意之處有了更多的了解！在實際執行上，都可以選擇正確的指標以及合適的模型進行嘗試！

Paragoger衍生者AI训练营。发布者：稻草人，转载请注明出处：https://www.shxcj.com/archives/4173

9-5 怎么看模型评测数据？

目錄

一、機器學習模型的好壞

二、模型指標與商業指標

三、指標能夠反映模型的全貌？

四、SOTA 模型代表著什麼？

五、總結

关于作者

稻草人

发表回复

9-5 怎么看模型评测数据？

目錄

一、機器學習模型的好壞

二、模型指標與商業指標

三、指標能夠反映模型的全貌？

四、SOTA 模型代表著什麼？

五、總結

关于作者

稻草人

相关推荐

移动端大语言模型LLM深度性能评估：架构、数据与优化路径的全面解析

能否让AI像人脑一样思考生成图片

AI陪我做事 – 7 Llama整体架构分析

AI陪我做事 – 6 Llamacpp量化部署

AI陪我做事 – 5 Llama-cli 主要能力介绍

3 直接用llama.cpp 运行一个模型

发表回复