作者hateli (kk)
看板Python
標題[問題] for迴圈搭配regex效率問題
時間Fri Feb 22 11:01:42 2019
小弟菜鳥 想詢問一下各位
目前寫的一個程式是要在2000篇文件中以regex找尋關鍵字出現與否 (以某些特徵出現)
而關鍵字的列表約有600萬個字
導致運算速率非常慢
如果想增進效率
不知能從什麼方面著手?謝謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.13.210.177
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1550804505.A.D27.html
1F:推 shala: 列表內的項目有600萬個的意思? 02/22 11:25
2F:→ hateli: 是的 另外是字典不是列表 內文打錯了~ 02/22 11:29
3F:推 w0005151: 關鍵字彼此不會重疊嗎?可以試試看把常出現的放前面 02/22 11:42
4F:推 s860134: 丟平行? 02/22 12:10
5F:推 cutekid: FlashText 02/22 12:55
6F:→ AndCycle: 哪種類型的文件? 單純txt的話直接換工具比較快 02/22 15:51
7F:推 TitanEric: 允許預處理嗎 先把單字在哪個文件那一行記起來 之後用r 02/22 20:28
8F:→ TitanEric: egex搜 02/22 20:28
9F:→ hateli: 謝謝大家回答,最後用flashtest解決了,之前推文沒送出 03/07 11:49
10F:→ hateli: *text 03/07 11:49