作者BenHuang (benhuang)
看板studyabroad
标题[分享] 申请录取预测器 Graduate Admission Predictor
时间Fri Apr 17 14:39:16 2009
申请录取预测器 (Graduate Admission Predictor)
Jia-Bin Huang 黄嘉斌
E-Mail:
[email protected]
Motivation
定期来看留学板已经有一段时间了, 今年我也申请了电机资讯领域的博士班, 本想发个录
取文回馈板众, 但有感於各项资料的准备[1]和申请流程[2]和各类讨论都是非常清楚地记
录在里头, 考试的准备部份在ptt也已有专门的版做详细的讨论,大多数的人主要还
是看看别人的背景以及录取的学校 (这点可以由推文数和学校排名的高度正相关得知),由
此推估自己申请时可能有的结果, 常常有人对於自己的背景能申请到排名多少的学校相当
好奇, 而TOEFL, GRE要考到多少才够? GPA这麽低也可以申请到好学校吗?这些问题永远
是留学板的热门话题, 所以我想提供一个研究所申请预测器, 只要你输入你的相关背景和
想查的学校, 此预测器便提供你录取此间学校的机率, 对於尚未毕业的学弟妹, 藉由调整
背景的参数, 也比较知道自己应该往哪个方向努力.
做此预测器的目的并不是要抢代办帮忙选校的生意, 也不是要刻意鼓励或是打击未来的申
请者, 只是希望由众多前人的背景和其申请结果的资料库, 学习出学校由教授组成的审查
委员会对於学生背景是如何进行选择, 提供未来申请者的申请时的一个预测, 同时也提供
一个较为完整的留学资料库.
System Overview
此预测器由使用者输入的学术背景资料, 预测欲申请的学校录取之机率, 现在系统仅能预
测电机资讯领域, 主要原因为电机资讯领域的申请者较多, 可用资料较完整。
输入资料及说明
1. Undergraduate School
根据大学念哪间学校, 依照以下的对照表输入相对应的数字
台大: 1 交大: 2 清大: 3 成大: 4 其他: 5
对於现在还没有除了其他各个学校的选项感到很抱歉, 完全是因为资料不充足, 太容易
产生Overfitting, 导致偏差的预测结果, 没有不尊敬的意思, 请见谅
2. Graduate School
根据研究所念哪间学校, 依照以下的对照表输入相对应的数字
台大: 1 交大: 2 清大: 3 成大: 4 其他: 5
如果为大学毕业生即申请出国的版友, 这项便为0
3. Undergraduate Overall GPA
填入大学四年Overall GPA 例如: 3.56
4. Undergraduate Major GPA
填入大学主修科目的GPA 例如: 3.88
5. Undergraduate Class Rank
填入在班上名次的百分比
例如: 在五十人的班级排第四名, 则填入4/50=0.08
6. Graduate GPA
填入研究所时期的GPA
7. Graduate Class Rank
填入研究所的名次百分比
8. GRE Verbal
GRE字汇分数 例如: 450
9. GRE Quantitative
GRE数学分数 例如: 780
10. GRE Analytical Writing
GRE分析写作分数 例如: 3.0
11. TOEFL Total Score
托福新制iBT的总分 例如: 95, CBT的分数请按照ETS提供的转换表做转换
12. Work Experience
几年的工作经验?
注意13-15项为主观分数, 以下我列出评分的准则
13. Score on Recommendation Letters
分数范围为1-10
每位推荐人的评分为0-4分 3位推荐人分数之相加 若超过10分则以10分计算
4. 该推荐人为你申请领域的重要人物, 并且和你相当熟识, 一起做过研究, 且有相当不
错的论文发表, 同时过去他也推荐过许多学生出国念书, 并都表现很好
(e.g. 院士级人物, 有人脉的教授)
3. 该推荐人指导你做过研究, 对於你的研究能力以及表现很欣赏 (e.g. 大学专题老师
, 研究所指导教授)
2. 该推荐人和你做过研究, 但对於你的表现并不十分激赏 (e.g. 大学专题老师, 研究
所指导教授)
1. 学校修课时的老师
14. Score on Statement of Purpose
同样为1-10分
15. Score on Selected Honor
1-10分
奥林匹亚竞赛奖牌, 国际科展, 书卷奖连庄四年 10 分
有参加竞赛(e.g. 程式, 论文奖)得名或是仅有系上少数一两次书卷 6 分
少数不知名(以国外角度来看)的奖学金 3 分
剩下的请自行内差估计
16. Score on Journal Publications
每一篇论文假设有两个考量因素 1. 第几作者? 2. 期刊素质?(分为1st tier/ 2nd
tier/ 3rd tier)
令A表示第几作者, J表示期刊的level
则一篇文章所得到的分数是 1/(A*J) 也就是作者序位越前面, 期刊素质越好分数就越
高, 若有多篇文章, 将其相加, 公式为 SUM(1/(A_k*J_k))
17. Score on Conference Publications
同16
18. Contact Professor
有积极连络教授为1 反之为0
19. MS or Ph.D?
申请硕班或博班, MS输入0 而Ph.D.则输入1
20. Year Applied
输入申请年度 如 2010年
输出结果为各学校的录取机率, 目前此资料库可预测的学校有
MIT Stanford Berkeley UIUC Caltech UMichigan Gatech
UMaryland UCLA USC UCSD Cornell Columbia Purdue
UTAustin TAMU UWisconsin UPenn Princeton
若往後资料库对於其他学校的申请结果有足够的样本, 将会扩充此预测范围
注:顺序不具意义
Method
实现预测器的方法很简单, 基本上就是做高中时数学课就教过的回归Regression[3], 首
先观察一些input和output的范例, 希望可以由这些范例中来推测新的input所产生的
output, 在录取预测器的情况, input就是每个申请者的量化背景, 为一个21维的向量,
而output便是录取与否, 为在[-1~1]区间的数值, 其中1 表示录取, 而-1表示不录取, 欲
希望看到约略的录取机率, 可将output的数值做平移和缩放 P = (output+1)*0.5
有了使用者输入的量化过的背景资料後, 首先我先训练一个回归器(Regressor), 有非常
多种不同类型的回归器可以使用, 例如Linear Regressor [4], Ridge Regressor [5],
SVM Regression [6], RVM Regression [7], Gaussian Process Regression [8],
在这里我使用Gaussian Process Regressor.
我们可以这麽看待Regreesion: 拿测试资料(i.e. 新申请者的量化背景)和所以在资料库
里头的每一个已知申请者的量化背景做比对, 计算测试资料和每一笔训练资料的距离, 而
由於测试资料和训练资料的维度仅有20维, 往往在此空间没有办法很有效地定义距离, 因
此做Regression时往往会运用一种叫做Kernel的方法[9], 简言之, 就是将原本20维的资
料, 藉由此技巧投影到更高维(可能是无限维)的空间中, 在高维空间中来定义两笔资料的
距离, 在这边我使用最常用的Gaussian Kernel [10].
Missing Data Approximation
在版友的文章中, 除了主观的评分(i.e. 推荐信, SOP, 和荣誉)之外, 还有许多量化的分
数会遗失, 这时我只好用已知的资料来推估, 例如许多人的名次若没有列出, 就会根据
GPA来大略估计, 或是没有Major GPA, 此时我便直接将Overall GPA来当做Major GPA.
Limitations
目前的研究所录取预测器仍有几项限制
1. 资料不足, 容易造成overfitting的现象
板上许多录取分享文中, Pending的学校仍占大多数, 因此此类分享文对於预测的方面没
有很大的帮助, 另外我想还有非常多有申请的版友没有PO录取分享文章, 但是他们的背景
以及结果都可以提供此录取器相当宝贵的资料, 因此我将录取预测器的资料放上网, 希望
有兴趣的版友可以提供你们的背景资料以及结果, 这将会使得录取预测器有更完善的功能
和更高的准确率, 另外, 若是您的背景资料已被使用, 你仍可以藉由此介面来新增录取学
校的结果, 或是提供更为准确的数据(e.g., Major GPA, Ranking, 主观数据等等)
若您为EECS历年来的申请者, 愿意提供您的宝贵背景及申请结果, 请至下列网址
按照上述的资料型态输入你的量化资料
http://spreadsheets.google.com/ccc?key=pbRuwn_UlgWLWje6iMf-xYQ
填入你的资料之後, 在後面有各个学校的栏位, 若你被录取, 则填入1, 被拒绝则填入-1,
若是没有申请该间学校, 则填0, 整个填写过程相当简单容易, 不需要3分钟就可以完成
注: 方便各位版友, 任何人都可以到此提供您的背景, 但是希望版友们能够守规矩
不窜改别人的资料或是将别人的资料删除, 谢谢大家的配合
2. 申请博士班的结果容易被各领域经费以及计画影响
由目前的实验结果观察, 预测博士班申请录取率的准确度较硕士班低, 原因除了博士班的
外在因素较多, 另外一个因素就是目前的样本数不够多, 不足以提供一个稳固的预测
3. 主观分数难以决定
目前的资料库中有关於主观的评分都是我根据申请者背景胡乱预测的, 如果这部分可以由
申请者本人来填写的话, 相信会有更好的预测结果
4. 申请过程中的假设
在此我对於要模拟的申请过程做一个简单的假设, 也就是说审查委员在看待申请者背景时
是一个平滑的决策过程, 也就是说, 相似背景的申请者通常会得到相似的结果, 我想这个
假设在申请硕士班时较为成立, 多少也可以解释为何博士班的录取预测较为困难
Experimental Results
目前测试的方法, 我使用Cross Validation中的Leave-one-out cross-validation (因为
训练资料不足的关系), 在目前相当有限和充满杂讯的资料中, 大致上约有6-7成的准确率,
等到更多版友将申请资料分享出来之後, 我会再提供正式的预测数据, 并在未来提供图形
介面的软体供版友们参考.
Conclusion
此录取预测器有几项应用:
1. 提供未来申请者申请之前选校的定位
2. 已申请过的版友可以看看自己当初没申请上的学校的录取机率
3. 藉由调整背景参数, 了解自己如何最佳化申请结果
4. 录取器会提供学习出来的各项量化背景的比重为何, 由此了解学校审查时着重的
内容为何
藉由号招过去以及现在的申请者提供更完整的背景资料, 提供未来申请者可使用的
申请录取预测器, 模拟各学校筛选学生的决策过程, 了解各学校是如何看待各种背
景的学生, 让之後的版友可以更为了解自己的背景以及可能出现的结果, 由此预测
器的建立, 同时也可以得知各学校对於各项申请资料的权重, 提供之後的申请者参
考以及努力方向, 未来若有更多版友愿意提供背景资料以及结果时, 将可以拓展此
预测器能够预测的领域(e.g., 理工, 商管等等)
对於此录取预测器有任何建议或是对於实做方法上有兴趣的朋友们, 可以来信指教,
E-Mail:
[email protected]
藉由更多人的参与, 希望可以讨论如何将此概念实现得更完善 :)
谢谢
Reference
[1] Jia-Bin Huang [分享] 留学申请流程 Part I 资料准备 (EECS相关) ptt
[2] Jia-Bin Huang [分享] 留学申请流程 Part II 线上申请 (EECS相关) ptt
[3]
http://en.wikipedia.org/wiki/Regression_analysis
[4]
http://en.wikipedia.org/wiki/Linear_regression
[5]
http://www.anc.ed.ac.uk/rbf/intro/node19.html
[6] Burges, A tutorial on support vector machines for pattern recognition,
Data mining and knowledge discovery, 1998
[7]
http://en.wikipedia.org/wiki/Relevance_vector_machine
[8]
http://www.gaussianprocess.org/gpml/code/matlab/doc/regression.html
[9]
http://en.wikipedia.org/wiki/Kernel_trick
[10]
http://en.wikipedia.org/wiki/Gaussian_function
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 169.236.143.21
1F:推 dearjoyce:太棒了 感谢!!! 04/17 14:45
2F:推 jiajiun:首推~ 太威啦!!! 04/17 14:46
3F:→ jiajiun:被抢了@@ 04/17 14:46
4F:→ dearjoyce:不好意思>< 04/17 14:46
5F:推 gsg:太屌了~~大推 04/17 15:03
6F:推 lingualedwin:太屌了 04/17 15:08
7F:推 eadanlin:推推推 所以大家要多多分享录取心得噢!XDD 04/17 15:14
8F:推 AmaiN:推推~ 太屌了 04/17 15:16
9F:推 oplz:股价涨跌预测器可能都比这个准一点~~ 04/17 15:17
10F:推 Dural:太强了.. 04/17 15:25
11F:→ Dural:是不是应该要来个mba的勒 XD 04/17 15:25
12F:推 yuhua:如果资料样本够多,或许很有参考价值呢 04/17 15:26
13F:→ BenHuang:其实每年申请的样本数应该是蛮多的 只是可取得的部分不多 04/17 15:33
14F:→ BenHuang:所以才希望藉由大家的填写来增加录取预测器的稳定度 04/17 15:33
15F:→ BenHuang:有申请过学校的版友就麻烦花个两三分钟填写一下表吧 :) 04/17 15:34
16F:推 oplz:问题在这上跟不上的门槛每年可能是浮动的. 竞争是相对而不是 04/17 15:35
17F:→ oplz:绝对的.. 模型里诉求的甚麽选校参考实在想太远了 04/17 15:35
18F:→ oplz:简单说 你要今年上 top 5 的那些明年再请一次 看有几个人有 04/17 15:37
19F:→ oplz:很高自信可以录取同样学校的? 04/17 15:37
20F:→ BenHuang:Hi oplz, 我并没有要做绝对的预测 我输出的仅是"机率" 04/17 15:40
21F:→ BenHuang:今年有申请上的同学 我相信明天再申请上同样学校的机率 04/17 15:40
22F:→ BenHuang:也不会太低 这也是我在input中加入申请年份的原因 04/17 15:41
23F:→ BenHuang:时间越近的资料越具有参考性 04/17 15:41
24F:→ BenHuang:当然 每年的标准是会浮动 这里有个假设:变化是平滑的 04/17 15:42
25F:推 oplz:if that's your thought, fine; I disagree and doubt it. 04/17 15:43
26F:推 Udodo:我觉得推荐信这项影响太大 可是很多人根本不知道老师写甚麽 04/17 15:49
27F:推 buteo:推原PO的热血 不过我不乐观... 04/17 15:51
28F:推 djsac:好酷! 不过我真的不知道老师推荐信写了什麽@@聊是很聊得来 04/17 15:53
29F:推 lisidi:我觉得申请博班缘份比啥都重要XD 04/17 15:58
30F:推 onehundred:很有创意 不过很多事情不能被量化 例如admission 04/17 16:07
31F:推 Clementtang:可以把不同年份的再分开 看你要代入哪个年度的模型 04/17 16:13
32F:推 jnco:超帅 04/17 16:16
33F:推 WINDHEAD:困难点是审查委员的"配分方式"未知. 可能得请教统计达人 04/17 16:18
34F:推 dobb:我觉得很棒 用工程概念去一步步近似真实结果 很有价值的研究 04/17 16:22
35F:推 dobb:反面的意见都是正确的 但这只是个参考值 决定权还是在申请者 04/17 16:25
36F:→ dobb:我相信有非常多人愿意一试的 04/17 16:27
37F:推 yoshien:我觉得光是同一年同一间学校被录取的人差异性就很大了吧 04/17 16:35
38F:推 yoshien:所以就算你的平滑假设是成立的,结果也只能看看就好吧 04/17 16:38
39F:推 yoshien:甚至可以说两个条件背景一样的同学,可能一个上一个不上。 04/17 16:40
40F:→ BenHuang:Hi yoshien, 同一间学校录取的人差异很大没错 04/17 16:41
41F:→ yoshien:不过很支持你的热心就是了,我也赞成大家多把背景分享 04/17 16:41
42F:→ BenHuang:但是regression实际上会加比较多的比重在和你背景相关的 04/17 16:42
43F:→ BenHuang:申请者上 你可以看成我在学习学校的decision boundary 04/17 16:43
44F:→ BenHuang:理论上要达到很高的估计正确率 将会需要无限多的samples 04/17 16:44
45F:→ BenHuang:来填满申请者量化背景所展开的高维空间 04/17 16:44
46F:→ BenHuang:当然主观分数部份有避免不掉的偏差 这部份希望由大量的 04/17 16:45
47F:→ BenHuang:资料来弥补,所以才需要各位板友的帮忙 04/17 16:46
48F:推 niwhu:你的ID是"扁皇"? 开玩笑的,缓和一下气氛:) 04/17 16:47
49F:→ BenHuang:建立模型必定要做假设 当现实情况离假设偏差不大时 04/17 16:47
50F:→ BenHuang:预测的准确度就会较高 (e.g. 类似背景的申请者会得到类似 04/17 16:48
51F:→ BenHuang:的结果, 学校收学生的逐年标准变化平滑等等) 04/17 16:49
52F:→ BenHuang:其实各位申请者在看录取文时 心中往往会想想自己的背景 04/17 16:51
53F:→ BenHuang:和PO录取文的同学做比较 在心中估算自己能上哪些学校 04/17 16:53
54F:→ BenHuang:我所作的是同样的动作 不过参考的资料包含所有的申请者 04/17 16:54
55F:→ BenHuang:如此一来可以比较不受限於outlier 或是noise的影响 04/17 16:55
56F:推 improvise:推一下 当有趣的参考也好! 04/17 16:59
57F:推 none024:请问目前是不是只有电机领域才能填资料? 04/17 17:16
58F:→ BenHuang:对@@ 真的不好意思..因为其他领域目前我没有整理... 04/17 17:23
59F:推 clhs04:太酷了 推 04/17 17:24
60F:推 oldhead1037:好酷@@ 推!! 04/17 17:36
61F:推 zznkqb:推原po认真 04/17 19:44
62F:推 killerjackal:这真的是太酷了啦~~ 04/17 21:00
63F:推 Qyi:酷毙了 多希望有生物或农学领域! 04/17 23:40
64F:推 joeism:太强大了.... 04/17 23:59
65F:推 piparing:太专业了这.... 04/18 00:47
66F:→ experience:预测器那边可以下载? XD 04/18 04:17
67F:→ experience:输入我的资料去预测大概会全部被拒绝 orz 04/18 04:17