作者reader (读者)
看板ask-why
标题Re: [请益] 资料归纳
时间Mon Jun 7 01:07:07 2010
※ 引述《hihieveryone ( )》之铭言:
: 我有将近 10万笔的资料 可是是不同类型的
: 有文章 有图片 有影片 小到连网址都有 ..
: 可是我不太会收纳
: 不知道有没有什麽好的收纳方式可以供参考呢 ?
: 有人专门在研究电子资料收纳的吗 ?
: thx
当然有,而且是一个曾经热门过的技术潮流,事实上关心资讯科技的人应该都听过,
只是可能因为是商业化的技术名词而被忽视,这就是资料仓储 (data warehouse) 。
资料仓储的原始目的,就是让企业可以简单地堆积和保存资料,并有效地取用分析。
在实际的建构方法上,则有许多种不同的派别,其中最早发展出来也最简单的做法,
称之为资料超市 (data mart), 把每个可能有用的资料打上简单的标签描述和分类,
然後可以在资料的使用过程中做进一步的处理和分析。
当然,事情没有这麽简单,後面的发展和问题一大堆。
但是在概念上,就是我们无法预期资料如何被使用,所以就只能在资料汇入的初期,
以合於成本考量的方式,尽量让资料结构化,往後再进一步地通过各种方法来调整,
而这样的一个高度弹性的架构,是很不容易的,我们会需要做一些资料特性的假设,
来建构合适的资料仓储系统。
例如以个人使用来说,多媒体资料可能占了很大部分,於是就不能像企业资料一样,
以大量的结构化资料来考量,目前的资料仓储方法,可能就有很多不能适用的部分,
这可能就是一个商机所在,只是个人使用者一般不会为此付出高昂成本。
也因此,现在的软体公司不会为此发展个人的资料仓储系统,但主要技术已经有了,
未来也可能在技术成本和个人需求的考量下,在适当的时候出现。
而现在根据不同的资料格式做搜寻和标签的技术,其实已经很够了。
但未来在语意化资料模型 (semantic data model) 的发展下,多数资料在建置时,
就可能会带有资料内容的描述,个人资料仓储的需求也未必会持续增长到哪里去。
至於实体的资料保存使用,像是 SAN 或 NAS 之类的技术一大堆,就不用多说了。
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 114.41.126.67
1F:→ Ycat1911:你是要原PO为了整理档案总管,再多架一个SQLserver就是? 06/07 21:07
2F:→ Ycat1911:人家是要问档案索引、分类这种图书馆学的东西 06/07 21:08
3F:→ Ycat1911:大家越回答越扯... 06/07 21:08
4F:推 HuangJC:那倒不;这篇我觉得很切题.其实在专案分析时 top-down 或 06/07 21:40
5F:→ HuangJC:down-top 是会争论不休的;争论是因为根本做不出来在抢资源 06/07 21:41
6F:→ HuangJC:如果有一个强者能拍胸脯:我知道花多少钱多少时间保证做好 06/07 21:41
7F:→ HuangJC:那不管任何一种分析他都能用,也都会充满说服力. 06/07 21:42
8F:→ HuangJC:top-down:从PM角度,想做多少东西开始切割功能,凡自己做不 06/07 21:42
9F:→ HuangJC:到的就发包出去;down-top:工程师就自己做得到的提出报告, 06/07 21:43
10F:→ HuangJC:并且要求PM不要提出太强大的产品需求.从以上两者的比较来 06/07 21:43
11F:→ HuangJC:说,使用者反正什麽都不知道,连要花多少钱都不知道,比较像 06/07 21:44
12F:→ HuangJC:PM,需求丢出去在等别人喊价钱. 06/07 21:44
13F:→ HuangJC:我是属於工程端,所以我会说我能做到什麽,超出的不谈 06/07 21:45
14F:→ HuangJC:而做得到的是能力所及,代价能预估,才能够详谈.就以架一个 06/07 21:46
15F:→ HuangJC:SQL Server 来说,我已经架过,我就可以谈了;也就是我常说的 06/07 21:46
16F:→ HuangJC:"要缩小题目";其实原PO一直担心的"服务公司倒闭则服务不存 06/07 21:47
17F:→ HuangJC:在",那也是他一直以为这些全是网际服务.其实自己架Server 06/07 21:47
18F:→ HuangJC:弄成自家的桌上服务,那根本就没有倒闭的问题,那是他自己一 06/07 21:48
19F:→ HuangJC:直没去看通的.如果我现在还有八位元的苹果电脑,我当然必需 06/07 21:48
20F:→ HuangJC:保留 MarketPlan(八位元的excel),那是当然的啊! 06/07 21:49
21F:→ HuangJC:难道原PO必需学会写程式,自己写一套试算表吗? 06/07 21:50
22F:→ HuangJC:把已经做好,能用的提出就已经够了;至於图书馆学,或我说的 06/07 21:51
23F:→ HuangJC:资料库如何规划,那流派多,有专版,他得自己想法子.基本上如 06/07 21:51
24F:→ HuangJC:果我用编年,找封情书应该不必三秒. 06/07 21:52