作者walelile (wakaka)
看板Programming
标题[问题] robots.txt处理
时间Mon Oct 20 12:30:01 2014
在robots.txt中,会有许多Disallow或Allow path的设定
e.g.
Disallow: /dir/myfile.html
Allow: /dir/
(在/dir/目录下只允许存取/dir/myfile.html)
我现在处理robots.txt的方式是逐条将Disallow或Allow的设定转成regex,
并分别存在Disallow与Allow的array中。
每次有URL需要进行处理时,先逐条比对Disallow中的regex然後在比对Allow中的regex
想请问是否有其他比较妥当的处理方式?
我目前看到规定最多的是维基百科的robots.txt, 约有700条设定
还不确定这对fetch url效能上的影响有多大...
谢谢指教
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.169.89.15
※ 文章网址: http://webptt.com/cn.aspx?n=bbs/Programming/M.1413779403.A.50A.html
1F:→ suhorng: 担心效能的话 把输入的所有 regex 都先 140.112.16.135 10/20 13:58
2F:→ suhorng: 合并成自动机呢 140.112.16.135 10/20 13:58
3F:→ walelile: 喔 我会去试试看 谢谢建议 118.169.89.15 10/20 14:22
4F:→ AndCycle: 同学,用之前查文件,没有 Allow 这种东西 59.120.152.218 10/25 06:56