作者bizkit (all work and no play)
看板Wikipedia
標題[問題] 關於離線資料
時間Fri May 8 02:33:17 2009
Hi,
不好意思想請教一個比較奇怪的問題
我的專題在做wikipedia的資料分析
由於我只對文章內的語意有興趣
不考慮文章之間的連結關係與文字的租體斜體等格式
不知道是否有現成的parser可以拿掉wikipedia的語法
或是有整理好的archive可以使用
如專題成果滿意會在完成後公開原始碼與報告
謝謝:)
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.138.145.161