作者ddavid (谎言接线生)
看板Python
标题Re: [问题] 不同主题的情绪分析的资料库
时间Wed Jun 10 14:24:16 2020
※ 引述《nchunerdy120 (batman)》之铭言:
: 推 ddavid: 因为例如价格这个就比一般的情绪分析麻烦,所以就算做出一 06/09 20:59
: → ddavid: 套来也很难通用,难通用就相对比较不会有学术公开发表,一 06/09 21:00
: → ddavid: 般会是商业上自己独门建一套出来只适用他经营项目这样,自 06/09 21:01
: → ddavid: 然也不会开放出来(因为是他吃饭的家伙) 06/09 21:01
: 推 ddavid: 你还是可以针对题目很类似的情绪或语意分析研究找看看有没 06/09 21:11
: → ddavid: 有,不一定能找到就是 06/09 21:11
: 了解,所以要做好得自己定义一套的准备咯XDD 真的非常感谢您多次帮忙!!!
对了,我讲一下完整弄一套这个时可以考虑的一个招数。
相信各位在网路上常玩过有种小游戏是一直出现两个选项叫你选比较喜欢的那个
,选了很多次以後他就可以帮你弄出一个所有东西对你个人而言的排序结果。
跟上面那个很相似,写个可以一直随机丢出两个词(或两个句子)的网页或app
让使用者简单点选「哪个词让你觉得比较贵?」最後就可以列出每个使用者对於每个
词的「价格」概念由贵到便宜排列,例如:
天价 > 千金难买 > 买不起 > 昂贵 > 高价 > 高级 > 平价 > 实惠 > 便宜 > 廉价
你想办法让更多人玩这个东西,把这些结果存起来,之後就可以建立Model直接
从这些资讯去自动学每个词的分数,到最後再测试并手动微调。这样会比从头到尾手
动自己想一套分数来得合理。当然要建立这个程式并让多一些人来测试也是有其麻烦
之处啦,所以这只是一种可能性,你可以自己想想有什麽其他方法可以不要只靠自己
观点来从头建立一套分数。
至於学习的Model,比如最简单就是把每个人最後排列出来的ranking normalize
到0到1之间,然後再对所有使用者同一个词的normalized ranking加总平均作为分数
。更进阶当然会有更多适用不同情况的方法。
例如前述例子就可以:
天价 > 千金难买 > 买不起 > 昂贵 > 高价 > 高级 > 平价 > 实惠 > 便宜 > 廉价
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
每个人排列出来的结果当然不会一样,因此每个人的结果加总平均,某种程度就
解释了受测者对於各个词的平均昂贵程度语感。收集的受测资料越多,我们就可以期
待应该可以更接近社会平均对词汇的认知语感。
最後说句老实话,包括以前那次回答,这些文章似乎发在DataScience版会更好
,内容已经不太Python了XD。而且那边有经验的高手应该更集中,也许会得到更多不
同的好答案。
--
「去质疑亲眼所见的事是最愚昧的行为。这又分为两种--质疑自己所见是不是
真的,或是用见到的事去质疑没见到的事。呵。」
--芙莉雅,谎言事务所实现使者
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.169.66.177 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1591770260.A.030.html
※ 编辑: ddavid (1.169.66.177 台湾), 06/10/2020 14:25:55
1F:推 nchunerdy120: 呜呜真的太感谢您了!!! 会在python问一方面是想 06/10 23:18
2F:→ nchunerdy120: 问情绪分析的package,然後也是因为不知道有datasci 06/10 23:18
3F:→ nchunerdy120: ence版XDDD 谢谢您多次提点,万分感谢!!! 06/10 23:18
对了,其实忘了补充一句,明眼人可以很明显看出上面那举例中排列给出的分数
是有问题的。至於怎麽修正?那就是手法各有巧妙不同,看自己的需求而定了。
※ 编辑: ddavid (1.169.72.51 台湾), 06/16/2020 10:13:36