作者jack1218 (赤城我老婆)
看板DataScience
標題[情報] 新手向kaggle自辦競賽 ptt推噓文預測
時間Fri Feb 5 20:25:43 2021
如題
最近在學NLP 所以爬了ptt八卦版的問卦
準備做推噓文的預測
不過自己玩有點無聊 所以把dataset整理好放到kaggle上 開個小競賽
有興趣的人可以一起玩玩看
期限是一個月
https://www.kaggle.com/c/ptt-gossiping-push-down-predict/
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.94.234 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1612527945.A.1FE.html
1F:推 jigfopsda: 推推02/05 20:55
2F:推 wtchen: 有趣....02/05 21:25
3F:推 blackmaninEE: XD02/06 11:25
4F:推 cutecutepig: have fun!02/06 23:23
5F:推 ddavid: 還在念博士時有做過用PTT文章預測投票票數的,當時結果很02/07 02:30
6F:→ ddavid: 神奇地好。不過預測推噓文,直覺上要好會需要用手段補充外02/07 02:31
7F:→ ddavid: 在背景知識02/07 02:31
8F:→ ddavid: 總之這題目確實挺有趣的02/07 02:32
9F:→ ddavid: 另外,其實我認為發文作者是其中一個鑑別力很強的feature02/07 02:33
10F:→ ddavid: ,這邊沒有提供XD 02/07 02:33
之前是怕作者這個feature太強
好像應該要加的
※ 編輯: jack1218 (223.137.94.234 臺灣), 02/07/2021 12:45:52
11F:→ seasa2016: 顏色正確就推爆 02/07 21:41
12F:推 kikicheng: 蠻有趣的 02/08 02:35
13F:推 acctouhou: 光從發文作者就可以判斷的case應該要被當outliers吧 02/08 12:37
14F:推 ddavid: 提供作者有個重點是可以查詢上站次數跟文章次數,而這兩項 02/14 21:59
15F:→ ddavid: 我認為是很重要的特徵 02/14 21:59
16F:→ ddavid: 舉一個已經有實用經驗的例子,Youtube的自動判斷機制在接 02/14 22:00
17F:→ ddavid: 到影片舉報時,他們研究發現最有辨別能力的特徵就是發該影 02/14 22:01
18F:→ ddavid: 片的使用者是否是很新的帳號,若是則大機率真的是問題影片 02/14 22:01
19F:→ ddavid: 而針對PTT,我個人的觀察是去看 文章篇數/上站次數 這個比 02/14 22:02
20F:→ ddavid: 值,對於文章是不是廢文的機率也有高辨識度 02/14 22:02
21F:→ ddavid: 若這個比值達到1以上,越高就越可能是廢文 02/14 22:03
22F:→ ddavid: 但如果比值大約在0.5前後,則相對用心發文的機率較高 02/14 22:03
23F:→ ddavid: 比值若很接近0(也就是發文很少上站很多),又會反過來變 02/14 22:04
24F:→ ddavid: 成內容不足的機率提升,但狀況相對比值高於1的輕微 02/14 22:05
25F:推 ddavid: 另外取得作者還有一項判斷依據,就是有些人可能在特定版面 02/14 22:08
26F:→ ddavid: 容易被噓但在別的特定版面容易被推,先不提所謂政治傾向, 02/14 22:09
27F:→ ddavid: 那種在棒球版是大師但在遊戲版是廢文王的情況 02/14 22:11
28F:→ ddavid: 也是很常見,所以使用者名稱搭配文章發表版面會是一組可能 02/14 22:12
29F:→ ddavid: 不錯的特徵 02/14 22:12