作者jack1218 (赤城我老婆)
看板DataScience
标题[情报] 新手向kaggle自办竞赛 ptt推嘘文预测
时间Fri Feb 5 20:25:43 2021
如题
最近在学NLP 所以爬了ptt八卦版的问卦
准备做推嘘文的预测
不过自己玩有点无聊 所以把dataset整理好放到kaggle上 开个小竞赛
有兴趣的人可以一起玩玩看
期限是一个月
https://www.kaggle.com/c/ptt-gossiping-push-down-predict/
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.137.94.234 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1612527945.A.1FE.html
1F:推 jigfopsda: 推推02/05 20:55
2F:推 wtchen: 有趣....02/05 21:25
3F:推 blackmaninEE: XD02/06 11:25
4F:推 cutecutepig: have fun!02/06 23:23
5F:推 ddavid: 还在念博士时有做过用PTT文章预测投票票数的,当时结果很02/07 02:30
6F:→ ddavid: 神奇地好。不过预测推嘘文,直觉上要好会需要用手段补充外02/07 02:31
7F:→ ddavid: 在背景知识02/07 02:31
8F:→ ddavid: 总之这题目确实挺有趣的02/07 02:32
9F:→ ddavid: 另外,其实我认为发文作者是其中一个监别力很强的feature02/07 02:33
10F:→ ddavid: ,这边没有提供XD 02/07 02:33
之前是怕作者这个feature太强
好像应该要加的
※ 编辑: jack1218 (223.137.94.234 台湾), 02/07/2021 12:45:52
11F:→ seasa2016: 颜色正确就推爆 02/07 21:41
12F:推 kikicheng: 蛮有趣的 02/08 02:35
13F:推 acctouhou: 光从发文作者就可以判断的case应该要被当outliers吧 02/08 12:37
14F:推 ddavid: 提供作者有个重点是可以查询上站次数跟文章次数,而这两项 02/14 21:59
15F:→ ddavid: 我认为是很重要的特徵 02/14 21:59
16F:→ ddavid: 举一个已经有实用经验的例子,Youtube的自动判断机制在接 02/14 22:00
17F:→ ddavid: 到影片举报时,他们研究发现最有辨别能力的特徵就是发该影 02/14 22:01
18F:→ ddavid: 片的使用者是否是很新的帐号,若是则大机率真的是问题影片 02/14 22:01
19F:→ ddavid: 而针对PTT,我个人的观察是去看 文章篇数/上站次数 这个比 02/14 22:02
20F:→ ddavid: 值,对於文章是不是废文的机率也有高辨识度 02/14 22:02
21F:→ ddavid: 若这个比值达到1以上,越高就越可能是废文 02/14 22:03
22F:→ ddavid: 但如果比值大约在0.5前後,则相对用心发文的机率较高 02/14 22:03
23F:→ ddavid: 比值若很接近0(也就是发文很少上站很多),又会反过来变 02/14 22:04
24F:→ ddavid: 成内容不足的机率提升,但状况相对比值高於1的轻微 02/14 22:05
25F:推 ddavid: 另外取得作者还有一项判断依据,就是有些人可能在特定版面 02/14 22:08
26F:→ ddavid: 容易被嘘但在别的特定版面容易被推,先不提所谓政治倾向, 02/14 22:09
27F:→ ddavid: 那种在棒球版是大师但在游戏版是废文王的情况 02/14 22:11
28F:→ ddavid: 也是很常见,所以使用者名称搭配文章发表版面会是一组可能 02/14 22:12
29F:→ ddavid: 不错的特徵 02/14 22:12