作者popcorny (毕业了..@@")
看板java
标题Re: [问题] 想在Scala的RDD物件中更新变量
时间Mon Mar 20 22:39:15 2017
※ 引述《iwantstronge (...)》之铭言:
: 版友们好~
: 最近刚学Scala, 有个问题卡了很久
: 当我把档案用RDD读进来:
: val input = sc.textfile("myfile.txt")
: 接着逐行读取这个档案(RDD),
: 在里面用一个容器(HashMap, Array, List之类的)储存每一行的一些资讯
input.map(line => (line, 1)).reduceByKey(_ + _).collect
回传是一个tuple array 自己再转回HashMap
更简单的是
input.distinct().collect
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.229.40.244
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/java/M.1490020758.A.F43.html
※ 编辑: popcorny (36.229.40.244), 03/20/2017 22:40:13
※ 编辑: popcorny (36.229.40.244), 03/20/2017 22:41:03
1F:推 iwantstronge: 感谢回覆,其实我会想转成HashMap主要是时间效率好 03/21 10:56
2F:→ iwantstronge: 如果资料量太大是否就只能以RDD来处理?lookup()之 03/21 10:57
3F:→ iwantstronge: 类的~~ 但是时间效率很差~ 03/21 10:58
4F:推 v9290026: lookup多大?有没有考虑broadcast放不放得下或nosql 03/21 20:06