作者LibrainAir (矛盾與平衡)
看板Python
標題[問題] CSV檔案輸入
時間Sun Apr 5 10:40:37 2020
請問各位先進,我有檔案僅紀錄一連串X,Y座標但可能出現多個重複值,也就是說可以畫成heap map
我想要將這個檔案依照對應出現次數轉成list,例如
[原始檔案]
X Y
1 2
2 1
1 1
1 1
0 0
1 1
[預期輸出]
[[1,0,0],
[0,3,1],
[0,1,0]]
主要是要用於深度學習預處理資料,想請問大家改如何切入?
謝謝!
----
Sent from
BePTT on my Samsung SM-J610G
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.141.108.205 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1586054439.A.144.html
※ 編輯: LibrainAir (223.141.108.205 臺灣), 04/05/2020 10:42:16
1F:→ Starcraft2: 先掃一次X, Y可能的最大值 宣告一個2維陣列 04/05 11:29
2F:→ Starcraft2: 初值為0然後for迴圈去this_heat_map_array[x][y] += 1 04/05 11:30
3F:→ Starcraft2: 你自己有寫寫看一些了嗎? 04/05 11:30
4F:→ LibrainAir: 謝謝回覆,是的有嘗試過,但資料是百萬尺寸所以RAM爆 04/05 12:25
5F:→ LibrainAir: 掉了 04/05 12:25
6F:→ LibrainAir: 所以想請問是否Panda或是Numpy有提供類似功能或是能 04/05 12:25
7F:→ LibrainAir: 改善的架構? 04/05 12:25
8F:→ LibrainAir: 再次感謝 04/05 12:25
9F:推 TitanEric: numpy.unique搭配return_counts參數 04/05 15:31
10F:→ justoncetime: 前面一頁內有人問過.還有貼出你的code才知你怎寫的 04/05 15:55
11F:推 jigfopsda: 可以看一下 sparse matrix 有沒有滿足你的需求 04/05 19:32
13F:→ LibrainAir: 主要處理到這邊,目前卡在資料量太大如何處理,我會 04/06 01:10
14F:→ LibrainAir: 參考上述的建議 04/06 01:10
15F:→ LibrainAir: 再次感謝! 04/06 01:10
16F:→ justoncetime: 電腦上的畫面請用電腦擷,除非其他方式能一樣清楚 04/06 01:45
17F:→ justoncetime: code有的人可能想try幫你debug,貼文字(或pastebin 04/06 01:50
18F:→ justoncetime: 這兩項,我覺得是提問者對潛在可能會幫助者的禮貌 04/06 01:50
19F:→ LibrainAir: 好的,十分感謝建議! 04/06 02:18
20F:→ LibrainAir: 我之後會更正程式碼,謝謝 04/06 02:18
22F:→ LibrainAir: 更正程式碼 04/06 13:29
23F:→ Starcraft2: 目前的code一樣是爆在memory嗎? 錯誤訊息也可以幫助 04/07 02:40
24F:→ Starcraft2: 大家幫忙看 04/07 02:40
25F:推 darama: 先找 x, y 的最大值, 用以上值宣告一個output 2d array 04/30 16:51
26F:推 darama: 遍歷全部座標(i,j) ;output[i][j]+=1 04/30 16:53