作者fuzuki ()
看板Wikipedia
標題文章關鍵字
時間Thu Dec 20 02:31:51 2007
上文說到內部連結,
換個標題講題外話,來個跟
文章重點相關的議題。
相信板上有許多玩過資料探勘的前輩,請讓我拋塊磚,不要批太兇。
資料檢索最基礎的運作是字頻計算,
以[[王菲]]條目取出部分內文做分析,
利用字詞頻率*反文件頻率(TF*IDF),
扣掉雜訊修正之後,
加權值前十名為
詞彙 出現次數 加權值
王菲 99 0.315286624203822 ←非常突出,高達0.3 遠高過其他的數值
專輯 52 0.165605095541401
香港 38 0.121019108280255
音樂 36 0.114649681528662
翻唱 30 0.0955414012738854
歌曲 28 0.089171974522293
大碟 24 0.0764331210191083
自己 22 0.0700636942675159
推出 22 0.0700636942675159
歌手 22 0.0700636942675159
其餘值大於0.05的辭彙
演唱會 21 0.0668789808917197
粵語 20 0.0636942675159236
歌 19 0.0605095541401274
唱片 19 0.0605095541401274
風格 17 0.054140127388535
演唱 17 0.054140127388535
年 16 0.0509554140127389
第一 16 0.0509554140127389
可以由程式粗淺的獲知該文要傳達的關鍵字。
再玩一個例子,這次將[[客家人]]條目中的"客家精神"段落取出代入公式計算,
一樣去掉雜訊,獲得下列結果
詞彙 出現次數 加權值
客家 13 0.125 →非常突出
家族 7 0.0673076923076923 →文章中不斷的提到家族和家
家 6 0.0576923076923077
教育 5 0.0480769230769231
客家人 5 0.0480769230769231
突出 4 0.0384615384615385
精神 4 0.0384615384615385
族 3 0.0288461538461538
更加 3 0.0288461538461538
宗族 3 0.0288461538461538
這種由資料庫當中萃取有意義的資料片段的技術,
能夠篩選資料,協助人腦更輕鬆的獲取知識,實在相當有意思。
--
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 122.124.15.221
※ 編輯: fuzuki 來自: 122.124.15.221 (12/20 02:32)
1F:推 whitedevil:這一刻,忽然很希望字詞頻率、反文件頻率、雜訊修正這 12/20 03:35
2F:→ whitedevil:幾個辭彙是可以點的藍色... >"<a 12/20 03:36
3F:推 kakoui:大推樓上 12/20 03:40