作者Mutibil (nujabes)
看板DataScience
標題[問題] 關於資料大小問題
時間Mon Jun 7 15:43:14 2021
最近接到個面試
需要先完成一個檔案大小約5GB的 預測分析project
但就我個人的laptop ram:8gb ssd:256gb
光檔案loading就耗費幾分鐘了
更別說要開始feature engineering or modeling
想請問 有任何雲端 不太需要訂閱功能的方式
可以完成這個project嗎
謝謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.176.92.165 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1623051796.A.01A.html
1F:推 wtchen: 不能分batch嗎? 06/07 16:32
2F:→ f496328mm: 不是,你這電腦也太弱了吧 06/07 16:41
3F:→ f496328mm: 我3年前做 ML,就已經最少 16GB 起跳了 06/07 16:41
4F:→ f496328mm: 碩班提供 16GB 電腦,我還覺得太弱,自己組 32 GB 06/07 16:42
5F:→ f496328mm: 如果是用 pandas,可以先讀前1萬筆就好 06/07 16:43
6F:→ Mutibil: 呃..個人電腦大概2015 fall的macbook pro 都跑些小專案 06/07 16:47
7F:→ Mutibil: 在lab 就用蘋果骨灰罈 沒這困擾 06/07 16:48
8F:→ Mutibil: 可能就只嘗試用部分dataset去跑 06/07 16:49
9F:→ hsnuyi: 資料格式寫一下啊 06/07 19:50
是csv file
※ 編輯: Mutibil (180.176.92.165 臺灣), 06/07/2021 21:58:07
10F:推 greenty: 5G很小呀,你資料要先分割 06/08 04:43
11F:→ hsnuyi: 既然是csv 應該可以分批吃吧? 注意batch的影響就好 06/08 11:20
12F:→ hsnuyi: 不然就先看看能不能降維 說不定有一堆值全部相同的特徵XD 06/08 11:22
13F:→ truehero: COLAB 06/09 00:57
14F:推 email81227: 做簡單的EDA,然後抽個5-10%做做看搞不好結果不錯? 06/09 22:24
15F:推 ILYY: colab 06/11 02:50
16F:推 tsoahans: loading完可以用numpy/pandas存成pickle/npy 下次讀取會 06/17 12:24
17F:→ tsoahans: 比較快 06/17 12:24
18F:→ tsoahans: 另外就是可以做一些資料處理 將無用特徵/樣本移除 再存 06/17 12:25
19F:→ tsoahans: 成檔案 下次讀取就可以讀比較少的資料 06/17 12:25
20F:推 wang19980531: 推樓上 分批讀取處理完資料後 就用其他檔案格式分 06/25 17:20
21F:→ wang19980531: 檔存起來 06/25 17:20
22F:→ wang19980531: 同時補充np.dot觸發segmentation fault時也要bat 06/25 17:21
23F:→ wang19980531: ch來做 06/25 17:21