作者qwtl0213 (Wezzy)
看板Python
标题[问题] 大量资料groupby 速率问题
时间Sun May 28 23:16:09 2023
大家好,小弟目前在处理大量资料时遇到了一些问题
我有一个dataset 大概有20000笔资料,而因为要用grid search 去找最佳参数,所以我目前
的做法是先把原始资料集复制N次 (N大概会抓到记忆体能负担得程度)然後再利用numba 向
量化的方式去进行向量化运算
而我想做的是把N组算出来的目标函数,依照每组参数进行相加(依照iteration 的编号相加
,目前想得出来的只有pandas 的 groupby 方法比较适合我) 但是用groupby 的话就会要花
费时间把大型array 转换成dataframe 在进行相加,这样速度就会慢很多
想请问各位有没有什麽比较好的处理方法,感谢不尽!
----
Sent from
BePTT
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.200.245.137 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1685286971.A.85B.html
1F:→ lycantrope: polars 05/28 23:53
3F:推 bearching: 问个可能不太正确的问题,如果把原始资料集复制一次 06/04 11:37
4F:→ bearching: 算出目标函数存下来,然後把复制的资料集drop掉,再把 06/04 11:38
5F:→ bearching: 原始资料集复制算下一个目标函数,如果这算法是符合需 06/04 11:39
6F:→ bearching: 求的话,会省满多资源的,而且N的数量应该可以会比 06/04 11:40
7F:→ bearching: 原本一口气算的多 06/04 11:40
8F:→ qwtl0213: 後来发现直接复制N次做向量化运算会快很多 06/04 14:57
9F:→ qwtl0213: 因为如果每次复制一次算一次代表有N组参数就要跑N次 或 06/04 14:57
10F:→ qwtl0213: 者我还没有想到其他方法哈哈 06/04 14:57
11F:推 celestialgod: 如果有最小可执行的程式 才能帮你看怎麽做 不然也是 06/04 17:24
12F:→ celestialgod: 请鬼抓药单 06/04 17:24
13F:推 leighmeow: Cask 06/17 14:48
14F:→ leighmeow: Dask 06/17 14:48