作者ddqueen (呼~呼~叔叔覺得妳好可愛~)
看板Linguistics
標題[請益]請問中文非語意的二字詞頻資料哪兒有?
時間Fri Jul 20 22:24:26 2018
大家好,
我知道中研院的「搜詞尋字」可以找到中文的詞頻資料。如下網站
http://words.sinica.edu.tw/sou/sou.html
可是我心血來潮,想要找「無語義」的二字詞的詞頻資料,請問哪兒會有呢?
在中研院的「搜詞尋字」的網站中,可以找二字詞的詞頻。
可是「二字詞」都是有意義的。
我所謂的「無語義」,就是任二字組合起來,常在文章中出現的頻率。
當然,我只要找頻率高的較好了,不然太多了。
只是好奇,哪些二個字連在一起出現的頻率較高而已。
像中研院之類的詞頻分析,我相信也是把資料用電腦分析後,
在所有二個字連在一起出現的結果中,把沒有詞義的部分去掉後,所整理出來的資料。
我就是想看看那些因為沒有詞意而被去掉的部分。
請問有人有辦法嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.242.47
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Linguistics/M.1532096669.A.19F.html
※ 編輯: ddqueen (114.36.242.47), 07/21/2018 00:54:40
※ 編輯: ddqueen (114.36.242.47), 07/21/2018 00:56:41
1F:→ HotDesert: 你的意思是不成詞的任兩個字組合嗎?如果是,你找不。 07/21 16:39
2F:→ HotDesert: 到的。 07/21 16:39
3F:→ HotDesert: 因為做這個沒意義。你可以自己寫個像bigram的程式,找 07/21 16:42
4F:→ HotDesert: 個沒斷詞的語料庫,跑跑看。 07/21 16:42
5F:推 annisat: 同樓上,跑bigram去掉詞庫的entry~暴力解 XD 07/22 16:37
6F:→ annisat: 中研院的詞頻分析應該是先斷詞過了 所有結果都是有意義的 07/22 16:38
7F:→ annisat: 要不然你找最常共現的兩個詞 前詞後字跟後詞前字不成詞 07/22 16:40
8F:→ annisat: 的話 大概就會是無意義任二字組合比較高的那些了?XD 07/22 16:40
恩~~ 我不會寫程式啦。也不知去哪裡找語料庫。@@ 沒人做過相關研究嗎?
※ 編輯: ddqueen (114.25.201.169), 07/23/2018 04:23:00
10F:→ CCY0927: 資料量很大,缺點是簡體中文。 07/24 02:26
Hi CCY0927,感謝您,有可能就是我要的。可是我找到Chinese (simplified)後,下截任一個,用word打開,看不太懂也。也沒有中文。擷取一行如下:
_ADV_ 007_NOUN 1982 5 5
您看,這樣是什麼?
還是說這個檔案不是用word開的呢?
※ 編輯: ddqueen (114.36.228.99), 07/25/2018 04:29:42
11F:推 annisat: 跟中研院買(欸 07/27 16:21