作者sysc (标准化流程)
看板bioinfo_lab
标题Re: [情报] 我现在在做的工作...
时间Tue Jan 24 01:45:06 2006
※ 引述《agomi (莱姆酒)》之铭言:
: 利用阿pu写出来的东西
: 我们已经可以抓到第一页的那十篇paper的"目录页"
: 所以我今天写了一段parser
: 把具有WOS那个紫色标签的paper的
: ***我目前是假设只有具有WOS标签的paper才有citation的资料 (有反例请提出Q_Q)***
: 1. paper title
: 2. WOS的link
: 抓出来
: 然後丢到另一个地方做处理
: ↓ "further work" ↓
: (有了WOS的link 进去之後就是那个可以看到CitedReference= XX 的网页
: 这时候再去对这个页面parse出CitedReferece的超连结
: 然後再去抓这个超连结开出的页面的原始码)
: 这个动作做完之後 我们可以把
: 1. paper title
: 2. 原始码
: 转成一个file存起来
: 这样就算是完成一篇paper的citation
: 最後只要让sysc写的parser来吃这个档案就ok
: ↑ 我这两天想写的东西 ↑
: 如果查询nod2
: 会发现只有最後9 10这两篇paper有WOS标志
: 我目前想先针对这两篇paper作处理
: 如果可以顺利抓到上述的两样东西
: ↓ 最後的判断回圈 ↓
: 接下来就是要去写"换页"的判断
: 就是查询出来如果result有1000个 那就是100个页面
: 要做99次的换页判断
: 以上. 欢迎大家讨论
: 顺利的话看来我们的作业有希望在三个礼拜之内结束
---------------------------------假设你会成功---
请记得把title 保留下来
例如title 是ABC
网页内容事<test>testtword</TEST>
请将档案存成xxx.xxx(自己决定就好)
TITLE:ABC
<test>testtword</TEST>
放在某个目录, 看你要不要压成zip 或怎麽样
如果有两页reference, 请存两个档案
------------------------------------------------
另外预计的进度是手动到36页做完...so...不知道snork 有做了吗?
如果ok 那这星期预计进度就结束了, 可以开始弄下星期的部份了(每人+36
就是下次要弄好的, 後面有9 页要再手动做)
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.112.231.27
1F:推 agomi:看到了 我试试看 01/24 09:23
2F:推 snork:我弄了,赶工完成 (-__-)y--~ 01/24 11:38