作者Edster (Edster)
看板R_Language
标题Re: [问题] readxl小问题
时间Thu Jun 23 18:06:31 2016
我也来问问,
readxl::read_excel 读入日期/时间的精准度的问题
偶而还是会遇到读取Excel的情形
在Windows下,读MS Excel创造出来的 YYYY-mm-dd HH:MM:SS 这种格式
例:读取内容
2009-01-03 07:00:00
col_type
1. date: 2009-01-03 06:59:59
2. text: 39997.291666666664
3. numeric: 39997.29
用text属性差距很少, 但也不是7点整, 因为7/24不能整除.
7/24 = 0.291666666667
(0.291666666664)*24 = 6.999999999936
不知是微软的问题还是谁的问题.
(Excel好像存到小数点十位(且是用截断的方式), 但用readxl读进来却是12位)
因为我处理的资料都是整点, 也就偷懒这样处理了.
这支function还有别的用途, 才写成这样. 在这边功能是一样的就直接贴上来了.
TS是 POSIX 格式: redaxl::read_excel(file, col_type="date")
TS2Oclock <- function (TS) {
MM = as.numeric(format(TS, "%M"))/60; MM[MM>=0.5] <- 1; MM[MM<0.5] <- 0
HH = as.numeric(format(TS, "%H")) + MM
TS = as.POSIXct(paste(format(TS, "%Y-%m-%d")," ", HH, ":00",sep=""))
}
TS2Oclock(as.POSIXct(2009-01-03 06:59:59))
各位用哪支function去重新处理?
我知道用 csv 且用ISOdatetime格式储存就没有这种问题, 但总会遇到excel
※ 引述《clansoda (小笨)》之铭言:
: 各位好,我有个xls档案,他是用general格式去储存时间格式
: 所以外部显示会长得像2016/06/21 11:39:25 AM 这样
: 但其实里面是用电脑化的纪录时间会变成42535.49413
: 这个应该是以1990-01-01为止到现在的天数 所以是
: 42535.49413天从那天算起,我用readxl的read_excel读入
: 但是他的function在读入的时候只会读入两个小数点
: 因此会变成42535.49天,接着我用openxlsx的convertDateTime
: 将这个数字转换成我们和R看得懂的格式,结果虽然前面都一样
: 但是差三位小数导致真实的时间差了五分钟,如果我想将这个数字导正
: 请问除了直接在excel加工之外还有其他的方法吗,openxlsx的read.xlsx
: 我已经试过了,但是他一直显示乱码,我不确定是不是中文太多导致
: 他没有可以encoding的选项,而xlsx的read.xlsx是太慢无法使用
: 如果要人工去调整excel会很辛苦,因为数量不小
: 不知道有没有人知道如何解决这个问题呢?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.112.64.48
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1466676393.A.00C.html
※ 编辑: Edster (140.112.64.48), 06/23/2016 18:11:36
※ 编辑: Edster (140.112.64.48), 06/23/2016 18:12:00
※ 编辑: Edster (140.112.64.48), 06/23/2016 18:52:45
1F:推 clansoda: 所以是差一秒吗? 我的也会 就是读近来会差一秒 06/23 19:22
2F:→ Edster: 差约5微秒. 资料先处理成 YYYY mm dd HH MM SS 六个栏位 06/23 19:36
3F:→ Edster: 好像是Excel储存时间最没问题的方式. 06/23 19:36
4F:→ Edster: 我自己平常是直接存成YYYYmmddHH 这样存成一栏. 06/23 19:37
5F:→ Edster: 读进来後再自己切. 用 strptime 06/23 19:38
6F:推 clansoda: 痾 看不太懂 我自己是只存一栏 他是以EXCEL 1990年为起 06/23 19:59
7F:→ clansoda: 点,再用openxlsx 为converttoDatetime 这个function 06/23 19:59
8F:→ clansoda: 我好像取到第六位会差一秒,明天可以试试取到第十位 06/23 20:00
9F:→ clansoda: 但是因为我这个资料对时间没有敏感到秒这麽夸张,差一秒 06/23 20:00
10F:→ clansoda: 我可能就让他去了吧 06/23 20:00
11F:→ Edster: 因为我是用时间做ID把两组资料拼在一起. 才会这麽在意 06/23 20:04
12F:→ Edster: 如果你只有一个excel档案的话, 存成 YYYYmmddHH 之类的 06/23 20:06
13F:→ Edster: 中间没有 / : 跟空格. 之类的东西, 就是一串10码数字. 06/23 20:07