Python 板


LINE

※ 引述《nchunerdy120 (batman)》之铭言: : 小弟目前是学生,有个专案是要从几万笔的评论中提取出几个重要的特徵,并且将这些特 : 徵拿来制造筛选器。 : 例如从餐厅的评论中得出「食物种类」、「食物价钱」、「食物口味」非常重要,就用这 : 三个当作分类器的attribute。然後在给定这些attribute值的时候,就能够导向对应的餐 : 厅。 : 自己思考一下作法後,归类出两个问题: : 首先是该如何提取特徵?我目前的想法是使用tf-idf向量化,找出tf-idf最高的前几个字 : 当作晒选器的attribute(X)。请问还有其他更适合的方式吗? 不一定更适合但可以并行或组合使用的方式:简单的自然语言分析(不一定要是 全套,依情况可能是词性或经验法则挑出某些特定句型)跟语意分析来补充关键字候 选。 比如食物种类一定是个名词,然後一般位於句子中前後可能有哪些位置与前後文 的特徵(例如,「吃起来」前面如果是接个名词,该名词可能很高机率就是个食物名 称吧),藉此捞出一些机率比较高的关键字候补。 : 第二个问题是该如何把餐厅(Y)跟选定的attribute(X)做连结?毕竟无法连结的话就 : 无法训练分类器,所以该怎麽把这些attribute(X)跟餐厅(Y)是个大问题... 目前怎 : 麽解决这件事情小弟完全没有头绪,不知道有没有大神可以解答Orz [编辑]:选定att : ribute之後该怎麽将评论中对应attribute的文字量化,例如评论中提到「食物很好吃」 : ,那该如何将「好吃」量化放入食物口味的attribute中 关键字:Opinion mining / Sentiment analysis / 情感语意分析 有一些公开的资料库把许多的词语设定好了positive/negative的正负面分数。 例如「好吃」可能是+0.73,「恶心」是-0.91之类。 於是当你已经抓到关键词所在句子并分好词,则可以利用这些资料库得到各同句 中相关词语对应的正负面情感分数,然後看要进行加总或其他特殊加权处理得到最终 该关键字的情感分数是正面或负面、值有多大,就可以以此情感分数做为某种结论或 後续进一步分析的feature。 要注意的是,情感分数计算有可能会因为文章类别或内容领域而有所差异,因此 可以先就取得的资料库套用手上的文章,确认一下文章中用到词语对应出来的分数是 否合理、适用或者还有缺漏,然後手动把分数值修正到更适合手上Case的状态,经过 这样的校正後可以得到更好的结果。 另外这可能只是你需要的一小部分feature,另外你还提到食物种类或价钱等等 ,这些则可能是靠前一部分关键字筛选来尝试解决。找出了多少不同的食物名称就可 能关连到食物种类的方面、找到某些跟价位有关的词语或前後文形容词就可能对应到 价钱之类的。 这有些部分非常需要分析者先手动阅读一些文章并分析可能的规则,再针对这些 规则去选择并调整你的text mining model,然後把model应用到其他文章看看结果, 再反覆进行这种验证调整直到model整体表现看起来不错,才进入实用。 : 麻烦各位乡民们替小弟解惑,如果有上述方法以外的作法也麻烦各位不吝提出,感谢! --- 以前博士班时做过的一个研究就是从网路文章里面找到文章写作者对於某些对象 或事物的好恶程度,判断如果只能投一票,他会投给哪一个,再进一步估计大群体的 投票倾向甚至精确投票票数。 -- 「如果你没法给我个解释的话,死一万次也不能弥补你的过错!」 「我没办法死一万次赔你啊。」 「可是你有办法半死两万次,知道吗,嗯?」 --莲.席斯塔 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.164.177.18 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1588955770.A.E41.html ※ 编辑: ddavid (1.164.177.18 台湾), 05/09/2020 00:51:53 ※ 编辑: ddavid (1.164.177.18 台湾), 05/09/2020 01:05:41
1F:推 nchunerdy120: 感谢您的解惑!小弟还有疑问,就是在分类器训练完 05/09 09:38
2F:→ nchunerdy120: 後(选定attribute也给值了),要将模型实际应用时 05/09 09:38
3F:→ nchunerdy120: ,使用者如果给数字,要如何对应到模型中的文字分 05/09 09:38
4F:→ nchunerdy120: 数?例如使用者想要一百块台币以内,要如何对应到「 05/09 09:38
5F:→ nchunerdy120: 食物价钱」那一块呢?感谢您 05/09 09:38
这个就有些事情要谈了。 1. 你原本取得的原始评论是否就能够精确到这种地步? 原始资料是否就足以让人做出这个判断?比如有些评论可能只写了「150元就可 以吃到不错」,那到底是否给人足够资讯判断100元的状况呢?原始资料拿给人看都 不足以判断的话,当然根本上就不可能training出可以良好判断的model了XD 2. 从原始文章到feature这个过程中,到底能够多精确? 也许原始评论其实有足够资讯,但是自然语言分析起来相对困难。例如: 「一般这种店大概都要150元以上才能吃到不错的料理。但是这家店很特别,能 以低其他店1/3的价格就端出不错的东西。」(我知道这写法一般来说不太自然,只 是举例) 这段评论给人类来看是足以判断100元可以吃得不错。然而这句话要让电脑解析 难度就高了。 首先150元这句话跟这家店的描述就拆在不同句子,而且这家店的描述得要能解 析成计算150 * (1 - 1/3) = 100才能够得知确切数值,这超级困难,不是随便平常 能取得的自然语言处理model就能解决的事情。 虽然有资讯,但是无法顺利解析取得model甚至还会解错。一般的model看到上面 那些内容搞不好抓到的资讯就是150元,厉害一点解成150 * 1/3 = 50元,两个都是 错的。 那事实上你到底在转换成feature这件事情上能做到什麽地步?这必须你自己先 解读并做一些测试才能够有所理解。 3. feature定义与model选择 就算解出某些价位数值,接下来还有你怎麽储存应用的问题。你的feature要直 接存一个价位数值吗?还是定义成「很贵─稍贵─一般─稍低─超低」之类的阶级? 阶级的话要几阶?阶级的话一般是怎麽定义的?是要跟同类店比较还是跟所有餐厅比 较? 而且一家店也不会只有一种价位,有可能「100可以吃得还可以,但是150就能吃 到好料了」,这样你打算怎麽定义你的feature呢?是某种fuzzy的定义吗?还是定义 成绝对的多个数值代表某家店的高中低消呢? model选择也是跟这有关。你让使用者输入是明确的价位还是阶级?model要怎麽 解读处理这个输入跟feature之间的关系?使用者要求100,model该不该给他110的选 择?如果feature只是存阶级,那使用者要求100,model该怎麽判断是一般、稍低还 是超低?需要跟食物种类一起分析吗? 当然,你乱订一套feature,乱选一个model直接上,总是可能给你结果。但你如 果想要更准确的结果,这些事情你就不得不想。 而这不是没看到实际资料、也不知道你问题详细要求跟定义、实际应用状况的我 或其他人能够直接给你建议的事情,你必须先自行分析这些细节後,提出更明确的问 题定义才有办法进一步选择更好的方式或问出更明确的问题。 结论一下,这问题可大可小。当成小问题来解,你乱套一个bag-of-words + classification,它也是可以给你一个结果。结果未必好,但总就是一个结果。 但想深入解得很好,光是上面每一个部分都有可能足以写出一篇paper(当然, 也八成已经有人解过相关问题写过paper了,但不一定完全符合你的问题要求),整 体当然更是一个超大问题。 说实在的,这东西要是做得很好,那可是充分有商用价值的。Google Map跟这一 搭马上就成为能够自动爬网路内容建立的精确美食地图了,超级有卖点啊XD 也就是说,你所谓这个学生做专案,到底: 1. 只是一堂课简单的作业专案 2. 是研究所以上的论文用专案 3. 是产学合作的实际应用专案 这会非常明显地影响到难度以及难在哪一部分XD ※ 编辑: ddavid (1.164.177.18 台湾), 05/10/2020 00:43:23
6F:推 nchunerdy120: 感谢您费心回文解惑,真的非常感谢!小弟这个专案是 05/10 14:02
7F:→ nchunerdy120: 硕士的毕业论文用专案,这个专案是跟学校MBA合作的 05/10 14:02
8F:→ nchunerdy120: ,虽然不用到您说的高准确度,不过也无法套bag of w 05/10 14:02
9F:→ nchunerdy120: ord直接建模... 资料集的探讨学校排定六月初,等到 05/10 14:02
10F:→ nchunerdy120: 时候仔细研究资料集了再上来发问,真的感谢您的热 05/10 14:02
11F:→ nchunerdy120: 心解惑! 05/10 14:02
如果是硕士毕业论文的话,你不要等到六月。六月那时只是让你实际确认资料状 况跟issues的细节,但有一件最重要的事情是你现在就应该开始的: 现在你就应该开始大量Survey paper,去找出所有可能相关的前人论文,先好好 看一下已经有哪些方法可能套进来使用,哪些方法虽然不能直接用却可以做某些转换 应用,哪些方法主轴无关但却有其中一部分可以拆来应用。 这些Survey完,你就会发现整个work中,哪些是以前的研究其实就做得不错,并 不容易突破,而另外哪些是缺口尚大容易突破的地方。毕竟硕论直接关系到毕业,没 事不要给自己找别人已经做到超好的地方硬干,要去找虽有技术性但还相对容易突破 的东西。 於是当你找出一个主要的突破点後,跟这个突破点最相关的那些论文就会是你的 主要比较对象,而其他虽然相关但不是主要突破方向的就会是你应用来解决其他部分 的架构,这两类最後就都会是你的reference章节该写到的东西。 用图来表示可能像这样: 评论文章 -> A -> B -> C -> 推荐结果 A可能是data cleaning相关。 B可能是特徵撷取相关。 C可能是模型选择与建立相关。 如果你建立了这样的架构,你可能就得去survey跟ABC三部分有关的论文。最後 你可能认为: A虽然没有针对餐厅评论做的,但你发现某些对商品评论data cleaning的研究做 得不错,只要调整一下可能就可以应用得到不错的结果。 B虽然有大量的研究,但对於这个work都各有关键性的缺失,没有一项过去研究 可以完善解决此work面对的所有问题。 C在AB都有一定成果的前提下,有过去的方法可以建立很好的model。 那你可能会把主要突破点订在B,也在A部分有一些修改调整的贡献,然後C完全 套用旧有不错的架构。最後就会变成: 评论文章 -> modified A -> X -> C -> 推荐结果 X会是你论文要强调的主要贡献,它要使结果可以击败所有过去研究的旧架构。 因此你要有实验证明X导致你的正确性能在目前这个work问题定义下,大多数情况都 胜过采用旧的各种方法。 modified A也是你的次要贡献。虽然你只是修改,但是你让旧有研究能够适应调 整新issue的需求。因此这部分,你要有个实验证明原本的A直接硬套是跑不动或结果 不佳的,必须经过你修正调整才可以适用你的work。 C不是没修改就啥都不用讨论喔。因为C也往往不会过去只有一种解法,因此对於 C,你可能需要至少就过去文献来讨论说他们互相竞争的结论,已经有最新的某个C是 效果最好并且最适合你现在work的要求,给出合理的理由。在某些情况下,可能有数 个C其实看起来都能用也都不错,那你可能就要进一步说明甚至来个实验讨论为何你 最後选了特定的C而非其他的,它有什麽明确更适合此work的地方或至少各方面都持 平不输其他选择等等。 这样你的论文架构就会很明确并有竞争性,也不会ABC一起搞、东打一块西打一 块,最後搞不清楚自己到底干了什麽才加减赢了比较对象一点点。 至於survey的目标范围该怎麽订、关键字该怎麽下,这很吃对问题的了解、背景 知识的深度以及研究经验,就不是我能直接在这边给建议的了。跟老师讨论一下会更 有帮助,或者在你已经对问题有一定了解的情况下才来进一步问有没有人知道相关议 题与研究,会更事半功倍。但初步总是会有一些很明确知道相关的方向可以先survey ,然後从这些论文的reference(较旧)以及cite这些论文的其他论文(较新),又 或是同作者的其他研究,一路串下去就有可能发现很多原本没想到但有关的Paper方 向跟关键字。 另外就是要尝试多点想像力。看一个研究不要只看它表面针对的问题,而是要额 外想看看,虽然原本看起来好像跟我的问题完全不相关,但如果我把input改一下、 如果我稍微改一下特徵取法、如果我加入某个权重、如果我只切其中某个部分来使用 等等,会不会其实可以解决我问题或其中的某部分?有时会在很意外看似不相干的领 域挖到可以解决问题的元素回来用。就像研究各种物理、生物、大脑行为结果延伸引 用概念而产生的机器学习演算法简直多不胜数。
12F:推 chia0712: 推认真回文 05/10 14:27
※ 编辑: ddavid (36.225.54.40 台湾), 05/11/2020 11:03:35
13F:推 nchunerdy120: 真的非常非常非常非常非常感谢您这麽详细的回覆QQ 05/15 00:08
14F:→ nchunerdy120: 小弟会照您的建议努力,如果有其他疑问再在版上发 05/15 00:08
15F:→ nchunerdy120: 文,太感谢您了!!! 05/15 00:08
16F:推 nini200: 优文!推 05/15 17:50







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Soft_Job站内搜寻

TOP