作者empireisme (empireisme)
看板R_Language
标题[问题] r做nlp发现新词的套件
时间Mon May 4 23:41:08 2020
如题
我想问问看
如果想用r发现新词,是否有相关的nlp套件或关键字(中文新词为主)
我打find new word 或 discover new word好像都有点不太对
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 101.10.19.236 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1588606870.A.AC2.html
1F:→ allen1985: 什麽是发现新词? 一个词不在字典里? 05/05 11:16
2F:→ allen1985: 还是NER model 05/05 11:18
3F:→ empireisme: 对就是一个新词不在词典里,例如习大大之类的 05/05 12:31
4F:→ locka: 应该都可以自订词库吧? 05/05 18:01
5F:→ empireisme: 自订词库要依靠人力,想要利用统计方法发现新词 05/05 18:57
6F:推 locka: 不确定目前有没有套件可以做到你想做的,用统计方法自动产 05/05 21:00
7F:→ locka: 生新词…因为中文不像英文用空格分格;每个中文字都各自有 05/05 21:00
8F:→ locka: 意思,连接起来可能又有新的意思,连接到多长停止也没有规 05/05 21:00
9F:→ locka: 则…所以好像输入进词库给模型训练好像是比较常见的做法@@ 05/05 21:00
10F:→ locka: (跪求版上NLP专家) 05/05 21:00
11F:→ locka: 刚刚查了一下,一楼allen大大说的NER model好像就是用深度 05/05 21:09
12F:→ locka: 学习方法自动做断词,原po或许可以找找看有没有用R做这个的 05/05 21:09
13F:→ locka: 套件(抱歉上面废话太多QQ) 05/05 21:09
14F:→ xiangying: 有一个颇简单的方式是用中研院的ckiptagger,有支援做n 05/06 15:12
15F:→ xiangying: er model,不过你要先将它用reticulate移植到R上,goog 05/06 15:12
16F:→ xiangying: le一下有人做好 05/06 15:12
17F:→ empireisme: 谢谢我来看一下什麽是reticulate 05/06 19:17