文章關鍵字

時間Thu Dec 20 02:31:51 2007

上文說到內部連結，換個標題講題外話，來個跟文章重點相關的議題。相信板上有許多玩過資料探勘的前輩，請讓我拋塊磚，不要批太兇。資料檢索最基礎的運作是字頻計算，以[[王菲]]條目取出部分內文做分析，利用字詞頻率*反文件頻率(TF*IDF)，扣掉雜訊修正之後，加權值前十名為詞彙出現次數加權值王菲 99 0.315286624203822 ←非常突出，高達0.3 遠高過其他的數值專輯 52 0.165605095541401 香港 38 0.121019108280255 音樂 36 0.114649681528662 翻唱 30 0.0955414012738854 歌曲 28 0.089171974522293 大碟 24 0.0764331210191083 自己 22 0.0700636942675159 推出 22 0.0700636942675159 歌手 22 0.0700636942675159 其餘值大於0.05的辭彙演唱會 21 0.0668789808917197 粵語 20 0.0636942675159236 歌 19 0.0605095541401274 唱片 19 0.0605095541401274 風格 17 0.054140127388535 演唱 17 0.054140127388535 年 16 0.0509554140127389 第一 16 0.0509554140127389 可以由程式粗淺的獲知該文要傳達的關鍵字。再玩一個例子，這次將[[客家人]]條目中的"客家精神"段落取出代入公式計算，一樣去掉雜訊，獲得下列結果詞彙出現次數加權值客家 13 0.125 →非常突出家族 7 0.0673076923076923 →文章中不斷的提到家族和家家 6 0.0576923076923077 教育 5 0.0480769230769231 客家人 5 0.0480769230769231 突出 4 0.0384615384615385 精神 4 0.0384615384615385 族 3 0.0288461538461538 更加 3 0.0288461538461538 宗族 3 0.0288461538461538 這種由資料庫當中萃取有意義的資料片段的技術，能夠篩選資料，協助人腦更輕鬆的獲取知識，實在相當有意思。 -- --

※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 122.124.15.221 ※ 編輯: fuzuki 來自: 122.124.15.221 (12/20 02:32)

1^F：推 whitedevil:這一刻，忽然很希望字詞頻率、反文件頻率、雜訊修正這 12/20 03:35

2^F：→ whitedevil:幾個辭彙是可以點的藍色... >"<a 12/20 03:36

3^F：推 kakoui:大推樓上 12/20 03:40

4^F：→ fuzuki:http://zh.wikipedia.org/w/index.php?title=TF-IDF 12/20 03:55

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

Wikipedia 板

文章關鍵字

熱門看板

贊助商連結