作者bizkit (all work and no play)
看板Wikipedia
标题[问题] 关於离线资料
时间Fri May 8 02:33:17 2009
Hi,
不好意思想请教一个比较奇怪的问题
我的专题在做wikipedia的资料分析
由於我只对文章内的语意有兴趣
不考虑文章之间的连结关系与文字的租体斜体等格式
不知道是否有现成的parser可以拿掉wikipedia的语法
或是有整理好的archive可以使用
如专题成果满意会在完成後公开原始码与报告
谢谢:)
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.138.145.161