作者biotite (山水寄情)
看板Geography
标题统计与地理 原 Re: [新闻]重新认识高雄学
时间Tue Dec 19 01:40:12 2006
老实说, 和国外相比, 台湾在人文地理领域作计量的实在很少
像T大系主任, 现在看起来是非常质性的研究, 但她博士论文可是非常计量的
而她所有的研究生中, 也只有1人用统计的方法做台北市的住宅分化, 其他也偏质性
我觉得这是台湾地理界的瓶颈 让许多珍贵的资源没法大量被应用及阐释
官方和学界都有责任来改善这个困境
举例来说, 台湾做的户口普查, 真的很花钱
但要分析户口普查的资料的成本可是非常大, 而且不好用
随便举两个面向, 1. 最小的加总单位是里, 对都市规划而言, 里的尺度还是偏大
2. 资料难以下载, 而且无法依使用者需要量身订做
而地理资讯图档不但难以流通, 而且通常只有空间图层而没有属性资料
当这两者都缺乏的时候, 一个小小的研究生有什麽资源可以做空间统计?
悲观的是, "据了解", 台湾的主计处非常保守, 连增加普查的1个新栏位都不肯
更不用说愿意从分享, 扩大运用的角度来提供这些资料供各学科及公司行号使用
可能是上亿的的调查经费, 印出那几本报告书就划下句点了...
"据知情人士"透露, 许多地理学界大老虽然倡议地理资讯流通自由化
但资讯代表的就是利益, 许多用政府预算及学校廉价劳动力产制出来的图层
在国防机密, 着作权等大帽子下, 这些纳税人付钱产制的资料却变成准私人财产
资料可能都有, 但要不就是靠关系, 不然就要经过某某政府单位行文+$$才能取得资料
别的不说, 从R大的贴文中, 可以知道赖老师那里有很多资料 (空间+属性)
可是从地图研究室的观点而言, 要分享这些资料, 可能有很多顾忌
也许有版权问题, 也许有和别的政府单位或合作默契的问题
台湾不是很重视SSCI数目?
把这些限制释放开来, 相信地理学界在SSCI数, 应该可以有小幅度的跳跃
※ 引述《evilove (诚实是被选择的)》之铭言:
: ※ 引述《biotite (山水寄情)》之铭言:
: 这也是我困惑很久的地方
: 书上明明拿成功失败二项式样本的例子表示机率各50%
: 可是我读过论文中
: 没有一个人是根据你所说的量尺来决定抽样方法
: 包括大家推荐的洪老师
这可能是学科领域不同所致
如果我要用各地区平均受教育年数来预测各地区平均薪资
则X, Y都是绝对数值, 而非机率
: P代表的应该是事先知道母体比例下才能知道的
: 在不知道母体的比例我们通常取P=.50的情况下让样本的变异最大
: 所以是不是其实跟量尺无关呢?
: 只是我又很困惑
: 有些资料官方有~譬如性别可能50/50 年龄可能10/20/25/25/20
: 区域的资料也有其比例
: 那抽样时如果同时考量应该怎麽设P值?
一般这样抽样, 多半看两者是否相关, 跑回归或比较平均数
看的是影响显不显着 P值是事後检证而非事前先假定 0.5最大
当然, 样本数也是越大越好
我做的是全部母体的分析, 一共4万多笔
: 又~问卷题项通常是未知的,又怎麽跟上述同时考量?
??? 不是很懂
: : 3. n >= 30 是个经验共识,就像为何讲95% CI 一样
: : 当然,这是个可以接受的临界值,若只抽样30个,必须要有补充说明来合理化之
: : 另,我没注意到你说的表,但我想是因为有这经验共识,表才会这麽制作
: 这个真的不是共识
: 管中闵老师的书开宗明义就提这个观念很多教科书都混淆
: 至於细节我已经提过是没有根据的
: http://www.sinica.edu.tw/~ckuan/books.html
若不是理解有差异, 不然就是管的一家之言
尽管权威有代表性, 但不需要尽信权威, 否则, 牛顿之後也不会有爱因斯坦了
我看该连结, 只是说:他们也错以为样本规模超过30或50时, 中央极限定理就一定成立
有时候, 样本数会受限於各项资源及研究议题
举例来说, 要分析台湾各县市政府资本门预算的比例与民众对县市政建设的满意度
即使全部的普查也就25个 而研究者若用6个个案来分析, 也未必没有统计上的意义
: : 4. 各县市抽100个,最後可以用人口加权来再现全台的面貌
: : 至於你说的抽样不均(1万抽1个或1000抽一个),在统计上没差,因为这是统计
: 我之前提过
: 事前可以控制抽到的机率相等会优於事後的加权
: 我提的方法是大家惯用的P.P.S
: (probability proportional to size, P.P.S)
: 至於你说的这个概念我真的不懂
: 可以请你多说一些吗?
如预计总样本为2300个 我台北市和澎湖县都抽100个
但在呈现全台的面貌时, 台北市的相对权重可能是 1/10 澎湖县每个个案权重为 1/250
这样可以避免将人口少的县市的特性过度夸大, 但又可突显地域的特色
若你平均抽的话, 2300个个案澎湖大概只有10个样本, 样本数过小
除非研究者不想探讨地域特性, 只想呈现全台的面貌
: : 5. 就选举政党倾向而言,就县市讨论是有意义的,涉及空间问题
: : 如各县市人口结构、产业结构、历史文化社会因素等
: 同意
: 不过我好奇的是里的13个怎麽被算出来的:P
: A大赶快来解惑吧
我越界了..不过我猜这应该事先决定样本数及里数 之後除下来的结果
所以应该有150个里 可能是都市 城郊 农村 各50个
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 165.91.197.242
※ 编辑: biotite 来自: 165.91.197.242 (12/19 02:08)
1F:→ biotite:不小心覆盖到推文 抱歉 (麻烦请重新附加) 12/19 02:08
2F:推 evilove:没关系,补充一下我说的P值是计算样本数公式中的母体比例 12/19 02:15
3F:→ evilove:b大说的应该是power值 12/19 02:17
4F:→ evilove:准备出国哩,回来再跟各位聊~ 12/19 02:17
5F:推 biotite:抱歉 我自己观念搞错 把此P当彼P 12/19 02:24
※ 编辑: biotite 来自: 165.91.197.242 (12/19 02:26)
※ 编辑: biotite 来自: 165.91.197.242 (12/19 02:34)
6F:推 nuo5218:看到赖老师所以推.. 12/19 04:44