Python 板


LINE

各位先进好,我有数千个TXT档,每个档案约3、4百MB大小,档案内容就一行是一个句子 ,然後我手头有10个关键字,我要找数千个TXT档里有哪些句子有提到关键字。 我目前作法是一个档案一个档案一行一行去跟关键字比对,有对应到的就抛出来。 因为後续还会有其他关键字,又要一个一个档案去爬,太耗时间,所以想请各位先进赐个 关键字,有没有可以改进效率的方法或套件可以推荐,感谢。 6/11- 後来想试试multiprocess的概念,我後来改写的程式码: https://github.com/ashkayle24/KeyWord_hit/blob/master/keyword_hit-test.py 不知这样的用法对不对,cpu一直在90%以上在跑,可否有先进给个指导... --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.234.198.228 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1559948780.A.D63.html
1F:推 charlie11438: 用numpy读并使用嵌套,虽然不知道速度如何,不过应06/08 08:55
2F:→ charlie11438: 该可以06/08 08:55
3F:→ charlie11438: https://i.imgur.com/7xSEI7e.jpg06/08 08:55
4F:→ charlie11438: 可以用这个试试看06/08 08:56
5F:→ pmove: 如果只是要结果,建议找现成软体,它可能用C写,会比您用Py06/08 10:25
6F:→ pmove: thon 写快的多。06/08 10:25
7F:推 TitanEric: multi thread去找 可以参考表现非常优秀的silver sea06/08 12:33
8F:→ TitanEric: rcher06/08 12:33
9F:→ TitanEric: 咦 等等 你这个需求就直接用ag就好 不用自己写06/08 12:33
10F:→ neil24: 谢谢各位大大给的建议,请问ag是什麽?06/08 15:11
11F:推 zo6596001: 不知道Windows 的 Linux subsystem 有没有grep06/08 15:42
12F:推 zo6596001: Linux 的 find 跟 grep 可以快速找特定档案的关键字06/08 15:43
13F:→ zo6596001: 有这两个指令的话,用subprocess popen 就可以了。 06/08 15:45
14F:→ zo6596001: 作业系统会帮你处理好其他事,只要收结果就好。06/08 15:50
15F:推 TitanEric: ag就是silver searcher 比grep -r还要快 06/08 18:10
16F:推 ptoyhawinf: 如果档案会一直重复查询,我会丢进资料库,以後下quer06/08 18:31
17F:→ ptoyhawinf: y指令查询即可。06/08 18:31
18F:推 vi000246: windows有winGrep06/08 23:33
19F:推 king22649: 用 solr 或 elasticsearch吧?06/09 02:23
20F:→ neil24: 我有搜到想用solr,但小弟程式新手,目前搜到的教学文都06/09 06:38
21F:→ neil24: 看不太懂,就汇档建立索引这块的逻辑不太能理解06/09 06:38
22F:推 Yshuan: 我工作上是用grep windows的portable, 觉得堪用06/10 11:46
23F:→ neil24: 我暂时是用multiprocess的概念去爬,一开始爬档时间省一半06/11 09:34
24F:→ neil24: 左右,但後续的速度越慢了,持续研究中...06/11 09:34
※ 编辑: neil24 (49.219.131.83 台湾), 06/11/2019 11:00:31
25F:→ king22649: 用elasticsearch吧 基本python包好好有lib 06/11 11:34
※ 编辑: neil24 (49.219.131.83 台湾), 06/11/2019 16:04:24







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:e-shopping站内搜寻

TOP