作者f496328mm (为什麽会流泪)
看板R_Language
标题[问题] kmeans 大数据 版本
时间Mon Aug 15 15:57:04 2016
跑kmeans出现以下讯息
Warning message:
Quick-TRANSfer stage steps exceeded maximum (= 1318974700)
看起来是 已达最大值
我的data 有2.6千万笔
想问问看有没有
大数据的kmeans版本
或是解决方法 或是说这是warning所以不用理他???
谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.42.97.210
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1471247827.A.EB3.html
1F:→ qhair: 如果会用Spark的话可以用SparkR的kmeans 08/15 20:34
没用过 上网查了一下 看起来一样是R的介面 安装Library
然後要开指令跟Spark做连结
想问问看主要的差异 特色 功能等等的
版上相关文章也不多 可能要到Spark版上找??
2F:→ celestialgod: 你没有多台机器跑spark效益就不大了 08/15 22:36
3F:→ Wush978: Sampling? 08/15 23:56
这是什麽??
目前打算先用一些方法分群 类似手动概念 自己写code
把data缩小後 再用kmeans套件
※ 编辑: f496328mm (114.36.53.171), 08/16/2016 13:07:09
4F:→ cywhale: 我知道biganalytics有bigkmeans这个function不过我没用过 08/16 14:31
谢谢
我研究看看
※ 编辑: f496328mm (114.36.53.171), 08/16/2016 19:04:13
5F:→ clickhere: pmclust::pkmeans 要多大有多大, 只要机器够多就行. 08/16 22:22