作者filialpiety (filialpiety)
看板DataScience
標題[問題] 關於傳統ML的評估良劣標準
時間Fri Jul 3 12:56:06 2020
想請問一下sensitiviy、accuracy、precision、F1等分數良劣的判斷標準值在哪?
不知道有沒有類似結構方程式適配度指標,有文獻支持的判斷標準值
Ps:小弟有嘗試找過文獻,可是對純資訊和純統計領域不太熟,麻煩各位大大指點
感謝萬分
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.139.162.134 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1593752168.A.0E0.html
1F:→ loser113: 標準點就看需求 業界應該也是要測到差不多準07/03 13:42
2F:→ loser113: 一次調到完美應該不太可能07/03 13:42
3F:推 ddavid: 這跟需求有關,標準不是唯一的07/03 13:55
4F:→ ddavid: 你很惜字如金,猜得少沒關係,重視凡猜必中,就要重視07/03 13:57
5F:→ ddavid: precision07/03 13:57
6F:→ ddavid: 你要把所有嫌疑犯找出來,力求涵蓋真兇在內,找太多也沒關07/03 13:58
7F:→ ddavid: 係,那就會看重Recall07/03 13:58
8F:→ ddavid: 你覺得兩種都要並重就會選F1,並重卻又不等重就會選擇某個07/03 14:00
9F:→ ddavid: 某個不平衡的F-score07/03 14:07
10F:→ ddavid: 如果是Multi-label,花樣更多了XD07/03 14:08
11F:→ ddavid: 然後這非常data/task dependant,你頂多實踐了以後,回頭07/03 14:10
12F:→ ddavid: 用結果反向評估說「我們過度重視precision,結果在此資料07/03 14:11
13F:→ ddavid: 下因為太難正確分類,導致Model過度偏向幾乎全部猜False」07/03 14:12
14F:→ ddavid: 「太重視recall導致Model做了過多True猜測,結果篩除的 07/03 14:14
15F:→ ddavid: False instance過少,沒有實用價值」,這才去調整measure07/03 14:14
16F:→ ddavid: 的比重07/03 14:15
17F:推 aidansky0989: 不一定,看需求場景 07/03 20:02
18F:→ Starcraft2: 各個領域可能會有標準的dataset跟目前各個metrics的07/04 04:20
19F:→ Starcraft2: 表現基於不同的model (學術界跟業界有很多paper)07/04 04:21
20F:→ Starcraft2: 例如影像辨識可能就看CIFAR-10這個dataset07/04 04:22
21F:→ Starcraft2: 自然語言可能會看GLUE/ WNLI這個dataset上大家在各種07/04 04:23
22F:→ Starcraft2: 自然語言上的task表現的怎麼樣 有一定的benchmark 07/04 04:24
23F:→ Starcraft2: 做指標07/04 04:24
25F:→ Starcraft2: 如果是其他自己要在公司做的特定案子, d大講得很好就07/05 01:45
26F:→ Starcraft2: 是看實際的應用跟metrics對business的影響07/05 01:46
感謝樓上各位大大的回應,小弟比較有概念了!會再仔細摸索。原來要看回答的問題做cu
toff,感謝各位的協助!
想再多問一個問題multi-label 的部分,網路上多以二元分類,後來我看多元分類最終也
是以二元分類形式產出,請問有沒有適合新手在multi-label更深入認識上的文章呢?
感謝各位
※ 編輯: filialpiety (223.138.67.252 臺灣), 07/05/2020 10:33:45
喔對!!我剛剛開電腦查以下這兩篇,請問這適合入門新手嗎??
Classifier chains for multi-label classification
Multi-label classification: An overview
※ 編輯: filialpiety (42.75.147.11 臺灣), 07/05/2020 12:02:12
27F:推 ddavid: 新手從Overview那篇看起應該很OK,不過我懷疑你會不會連基 07/05 20:19
28F:→ ddavid: 礎的single-label classification都還不夠熟悉,看情況可 07/05 20:20
29F:→ ddavid: 以加減先補一下。因為multi-label的版本有很多是從single 07/05 20:21
30F:→ ddavid: -label的版本延伸而來的 07/05 20:22
我single lable的概念主要從流病開始,看來得複習一下了!請問有推薦以資工角度切入
的single lable文獻或文獻的關鍵字?
感謝萬分~~
※ 編輯: filialpiety (42.75.32.55 臺灣), 07/05/2020 21:09:01
31F:推 ddavid: 一些學校的ML上課投影片應該都可以翻翻吧,然後我隨手翻了07/06 16:25
32F:→ ddavid: 一下: 07/06 16:25
34F:→ ddavid: 這篇整理該提到的基礎方法大致都有提到啦,但是對於各項評07/06 16:26
35F:→ ddavid: 估標準沒太多著墨是個缺點,不過基礎的那些課程投影片裡面 07/06 16:28
36F:→ ddavid: 應該都有吧 07/06 16:28
感謝d大,我會好好看的~謝謝您
※ 編輯: filialpiety (223.139.211.64 臺灣), 07/08/2020 12:06:02