[问题] 关於用python存资料库的问题

时间Fri Nov 6 08:06:53 2009

我用的资料库是mysql 我现在想要把大量的文章(几十万篇吧)切token 然後针对每个token存进去资料库里,但随着资料量越大,速度越缓慢假设我有一个存token的table,里面有token,token_frequency 每次我parser出一个token的话,我都要跟table里面token做比对,看有无这笔资料没有的话就insert,但做到越後面,我速度就会越慢(table的token有在msql里选了建index) 然後我有想了1个解决方法: 就是不用mysql里的"把此键设为index" 改为程式开始跑时,我就用dict建hash table,当parser出一个token就比对到hash table 没有的话就insert,不用再去资料库找请问以上这方法会比在mysql里直接把key建成index快吗? 这种问题还有其他种比较有效率的解法吗? --

※ 发信站: 批踢踢实业坊(ptt.cc) ◆ From: 140.116.141.42

1^F：→ Lucemia:看python 记忆体用量会不会爆掉 11/06 10:20

2^F：→ Lucemia:不会的话直接将资料全部处理完在一次写入mysql 11/06 10:20

3^F：→ Lucemia:会的话就用档案分别暂存 11/06 10:21

4^F：→ Lucemia:正常像常用英文单字有限，要直接在python里面处理完不难 11/06 10:21

5^F：推 darkroad:Insert 的table用index 会越来越慢因为要一值重整 11/06 11:13

6^F：推 StubbornLin:要不要考率用map reduce的分散式写法? 11/06 12:04

7^F：→ StubbornLin:基本上google用来切单词找频率好像就是用这种方法 11/06 12:05

8^F：推 StubbornLin:http://discoproject.org/ Python的map reduce 11/06 12:12

9^F：→ StubbornLin:现成的map reduce分散式运算 11/06 12:13

10^F：推 StubbornLin:又或着如果你不喜欢map reduce 11/06 12:32

11^F：→ StubbornLin:可以考虑把文章分成好几群降到可以开dict的数量级 11/06 12:33

12^F：→ StubbornLin:然後就照你说的每台电脑parse文章都用dict检查 11/06 12:34

13^F：→ StubbornLin:等那一整部份的文章做完再一口气存回mysql 11/06 12:34

14^F：→ iapptt:如果不坚持自己做，可用sphinx fulltext search engine 11/10 11:36

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Python 板

[问题] 关於用python存资料库的问题

热门看板

赞助商连结