作者cywhale (cywhale)
看板R_Language
标题Fw: [请益] 值得花十万到巨匠 学大数据软体吗?
时间Tue Dec 27 13:23:27 2016
※ [本文转录自 Soft_Job 看板 #1ONrR3BY ]
作者: Wush978 (拒看低质媒体) 看板: Soft_Job
标题: Re: [请益] 值得花十万到巨匠 学大数据软体吗?
时间: Sun Dec 25 13:18:56 2016
※ 引述《s00771book (320)》之铭言:
: 想问问前辈们
: 目前小妹的工作只是个
: 用BI cognos 拉资料做数据分析的助理
: 再用Excel枢纽分析 写写函数
: 做报告给主管看的工作
: 薪水少之又少 也不算是一技之长
: 根本不足以与大数据相提并论
: 目前向往大数据工作的方向
: (也是很有未来的工作 大陆已经很成熟了)
: 查看了104人力银行
: 大数据分析工作需要的条件:
: MS SQL 资料探勘 R语言 Hedoop
: 所以我去巨匠谘询了一下
: 课程规划师说要学 MCSA MCSE
: 再考微软证照70-461.462.463.464.465
: 才算是完全学会这套软体
: 和证明给面试官看
: 但是学费竟然快要十万
: 想请问有在做这方面工作的朋友们
: 真的值得花这笔钱吗?
: P.S.我只是个国立科大 企管+金融的学士而已
: 没有漂亮的学历 只能学一技之长补足自己
: 也不是资工 资管的科系的
: 希望前辈们能给我建议 谢谢你们>////<
如果要走数据分析(抱歉,我不太喜欢用大数据这个词)的话,
从学R 入门也是一个方法。
资料科学有三个要素:programming, statistics, domain knowledge
我自己在台湾的职涯差不多是:
有programming --> 薪资为 n
有programming + statistics ( 差不多是 machine learning ) --> 2n
有programming + statistics + domain knowledge --> 4n
你目前已经在工作了,只要花心思就可以开始累积domain knowledge:
你们领域中在意的问题是什麽?哪些方向?各种问题的价值?... etc
Programming的话坊间已经有很多自学教材了。
我这边推荐我与社群做的: R语言翻转教室
http://datascienceandr.org
你可以自由的使用它做自学R 语言,大概会花你12-18小时。
教材中我自认写的最满意的是Data Engineer的那段,
感谢社群朋友的捐献,拿一个利用Open Data计算房地产泡沫化指数的小专案当成作业
因为原始资料完全没有清理,所以这个作业差不多是一个期末报告的难度
但是它非常的贴近实际做资料科学与Open Data相关工作的情境。
这个教材对没有程式基础的同学比较挑战,
有问题,网页的右下角有聊天室可以问我,
或是你也可以考虑先使用其他教材。
台湾的R社群中还有:
- ptt R_Language版的板主:andrew 的「R 演习室」
http://apansharing.blogspot.tw/p/r.html
- Tony Yao-Jen Kuo 与 Data Camp合作的教材:
https://goo.gl/KxjhIq
这套与R语言翻转教室很类似,差异在:
- 是不用搞安装环境,想尝试可以更快开始尝试
- 课程内容差不多是R语言翻转教室RBasic的范畴,但是难度应该对新手更友善
(我最近正计画要降低R语言翻转教室的难度 ...)
R还有非常多其他的线上自学资源,族繁不及备载
其实你也不一定要学R, python 也是和R 一样好的分析工具,网路上也可以找到很多
自学资源
我觉得你「能不能运用自学资源自学工具」其实是衡量自己Programming能力的指标。
如果不能的话,就先好好学一套工具,基本上就具备这个能力了。
最後分析的能力,我觉得这是自学比较难补充的部份。
如果数学够好,就去啃书本吧。
另一种作法,是去分析的单位做Data Engineer,或是做研究助理,然後一边工作一边学
但是最好还是去补个与你想投入领域相关的硕士学位。
因为分析这种事情,很看个人的信誉、声望,而且也离不开domain knowledge。
好的人做的分析报告,大家直接跳到结论。不好的人,就算你该做的都做了也没人信。
要走这条路,一辈子也都要学习,共勉之。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.163.178.87
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1482643139.A.2E2.html
1F:→ beaprayguy: 终於有人点出大数据不等於资料科学, 12/25 13:22
2F:→ beaprayguy: 我超觉得一直强调大数据根本有事一一... 12/25 13:22
大数据是个定义不明确的词汇,所以要介绍怎麽学大数据,
问100个人大概会有25个说法,然後就战了。
相对来说,资料科学是比较定义明确的词汇,
从公认的三个要素(programming, statistics, domain knowledge)分开来介绍,
也是比较好写的。
3F:→ YishengSu: 比较像统计工程? 12/25 13:26
4F:推 neo5277: 2n挺吸引人的 ,4n也是 12/25 13:39
5F:推 bronx0807: 推 12/25 13:41
※ 编辑: Wush978 (1.163.178.87), 12/25/2016 13:58:00
6F:推 sivid: 推推 12/25 15:04
7F:推 yahoo523: 吴大文必推 用过他的翻转教室课程 很厉害!! 12/25 15:19
8F:推 y800122155: 推学长! ....HW6还没做完>< 12/25 15:21
9F:推 cmelo1515: wush大就是帅 12/25 16:15
10F:推 wuchihsu: 推推 12/25 17:09
11F:推 Trick: 所以N是多少呢? 12/25 18:01
12F:推 LMY8684: 朝圣推 12/25 18:27
13F:推 kenshin528: 钓出神人 12/25 21:43
14F:推 joker0634: 看到WUSH只好推了 12/25 21:57
15F:推 babypanda: 推,资料科学 12/25 22:24
16F:推 jakert123: 到底哪里有开放的data可以让人学大数据 12/26 02:14
17F:→ beaprayguy: 开放政府 12/26 06:25
18F:→ vn509942: 感谢分享 12/26 07:38
19F:推 eric500g: 推 12/26 08:06
20F:推 mirage7714: 推Wish大大 12/26 12:26
21F:推 frankshih: 推 wush 12/26 23:31
22F:推 snakeooxx: 朝圣 Wush <(_ _)> 12/27 00:57
23F:推 powergreen: 推推推 12/27 08:35
24F:推 cywhale: 推Wush大~ 12/27 12:31
※ 发信站: 批踢踢实业坊(ptt.cc)
※ 转录者: cywhale (140.112.65.48), 12/27/2016 13:23:27
26F:→ cywhale: 推一下Wush大在soft job版发的文~(应不用修前面推文吧~ 12/27 13:26
27F:→ Wush978: 其实我只是想继续推教材啦,哈哈哈 12/27 13:55
28F:→ Wush978: 这边已经有置底了 12/27 13:55
29F:→ f496328mm: 请问,学machine learning,需要自己写演算法吗? 12/27 17:48
30F:→ obarisk: 你问的演算法是那个层次的演算法? 12/27 21:28
31F:推 f496328mm: 因为我目前都是用其他人写好的packages 12/28 00:21
32F:→ f496328mm: 未来工作 , 不知道需不需要 , 自己写ML 12/28 00:22
33F:→ Wush978: 如果是一般的情况,可能不用自己会写算法 12/28 00:58
34F:→ Wush978: 我的情况是资料量大,一般ML套件都不能用,所以要自己能 12/28 00:58
35F:→ Wush978: 写才能跑得动 12/28 00:59
36F:→ Wush978: 如果一般套件能跑出好结果的话,我也倾向用一般套件先做 12/28 00:59
37F:→ Wush978: 两种工作内容(找精准的算法、写算法)在大公司可能是分 12/28 00:59
38F:→ Wush978: 开的职位或部门 12/28 00:59
39F:推 f496328mm: 感谢 12/28 11:29
40F:推 psinqoo: 实在不想说~~ 有些公司要找神人 会资料库、分析、演算法 12/29 08:53
41F:→ psinqoo: 开那种烂价格~~ 农历年我会整理一下这些公司资讯 12/29 08:53
42F:→ clansoda: 想请问wush大,什麽样的定义叫做资料大呢 12/29 10:01
43F:→ clansoda: 而为什麽自己写的跟library里面的速度上会有差异 12/29 10:01
44F:→ clansoda: 作者应该也有考量过这些问题吧,我目前跑起来在e1071 12/29 10:02
45F:→ clansoda: 里面的svm速度确实不是很理想,这跟library本身有关吗 12/29 10:02
46F:推 f496328mm: svm超级慢 几万笔就挂了 12/29 20:26
47F:→ f496328mm: library有些是用 c++ 写 当然快很多 R很慢的 12/29 20:27
48F:→ f496328mm: 推荐你用xgboost 比svm快很多 吃的ram也小 12/29 20:28
49F:→ f496328mm: 还可以CPU全开去跑 12/29 20:28