作者hateli (kk)
看板Python
标题[问题] for回圈搭配regex效率问题
时间Fri Feb 22 11:01:42 2019
小弟菜鸟 想询问一下各位
目前写的一个程式是要在2000篇文件中以regex找寻关键字出现与否 (以某些特徵出现)
而关键字的列表约有600万个字
导致运算速率非常慢
如果想增进效率
不知能从什麽方面着手?谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 101.13.210.177
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1550804505.A.D27.html
1F:推 shala: 列表内的项目有600万个的意思? 02/22 11:25
2F:→ hateli: 是的 另外是字典不是列表 内文打错了~ 02/22 11:29
3F:推 w0005151: 关键字彼此不会重叠吗?可以试试看把常出现的放前面 02/22 11:42
4F:推 s860134: 丢平行? 02/22 12:10
5F:推 cutekid: FlashText 02/22 12:55
6F:→ AndCycle: 哪种类型的文件? 单纯txt的话直接换工具比较快 02/22 15:51
7F:推 TitanEric: 允许预处理吗 先把单字在哪个文件那一行记起来 之後用r 02/22 20:28
8F:→ TitanEric: egex搜 02/22 20:28
9F:→ hateli: 谢谢大家回答,最後用flashtest解决了,之前推文没送出 03/07 11:49
10F:→ hateli: *text 03/07 11:49