作者ddqueen (呼~呼~叔叔觉得你好可爱~)
看板Linguistics
标题[请益]请问中文非语意的二字词频资料哪儿有?
时间Fri Jul 20 22:24:26 2018
大家好,
我知道中研院的「搜词寻字」可以找到中文的词频资料。如下网站
http://words.sinica.edu.tw/sou/sou.html
可是我心血来潮,想要找「无语义」的二字词的词频资料,请问哪儿会有呢?
在中研院的「搜词寻字」的网站中,可以找二字词的词频。
可是「二字词」都是有意义的。
我所谓的「无语义」,就是任二字组合起来,常在文章中出现的频率。
当然,我只要找频率高的较好了,不然太多了。
只是好奇,哪些二个字连在一起出现的频率较高而已。
像中研院之类的词频分析,我相信也是把资料用电脑分析後,
在所有二个字连在一起出现的结果中,把没有词义的部分去掉後,所整理出来的资料。
我就是想看看那些因为没有词意而被去掉的部分。
请问有人有办法吗?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.242.47
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Linguistics/M.1532096669.A.19F.html
※ 编辑: ddqueen (114.36.242.47), 07/21/2018 00:54:40
※ 编辑: ddqueen (114.36.242.47), 07/21/2018 00:56:41
1F:→ HotDesert: 你的意思是不成词的任两个字组合吗?如果是,你找不。 07/21 16:39
2F:→ HotDesert: 到的。 07/21 16:39
3F:→ HotDesert: 因为做这个没意义。你可以自己写个像bigram的程式,找 07/21 16:42
4F:→ HotDesert: 个没断词的语料库,跑跑看。 07/21 16:42
5F:推 annisat: 同楼上,跑bigram去掉词库的entry~暴力解 XD 07/22 16:37
6F:→ annisat: 中研院的词频分析应该是先断词过了 所有结果都是有意义的 07/22 16:38
7F:→ annisat: 要不然你找最常共现的两个词 前词後字跟後词前字不成词 07/22 16:40
8F:→ annisat: 的话 大概就会是无意义任二字组合比较高的那些了?XD 07/22 16:40
恩~~ 我不会写程式啦。也不知去哪里找语料库。@@ 没人做过相关研究吗?
※ 编辑: ddqueen (114.25.201.169), 07/23/2018 04:23:00
10F:→ CCY0927: 资料量很大,缺点是简体中文。 07/24 02:26
Hi CCY0927,感谢您,有可能就是我要的。可是我找到Chinese (simplified)後,下截任一个,用word打开,看不太懂也。也没有中文。撷取一行如下:
_ADV_ 007_NOUN 1982 5 5
您看,这样是什麽?
还是说这个档案不是用word开的呢?
※ 编辑: ddqueen (114.36.228.99), 07/25/2018 04:29:42
11F:推 annisat: 跟中研院买(欸 07/27 16:21