DataScience 板


LINE

大家好 小弟最近在做 文本摘要中生成式摘要 需要中文的文本资料库去进行训练模型 但上网找都没有找到 合适用来训练模型的资料库 不知道各位大大 有没有推荐适合的资料库呢? --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.137.243.9
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1522289588.A.097.html ※ 编辑: D0128431 (114.137.243.9), 03/29/2018 10:15:13
1F:推 del680202: 中午的语料库?03/29 10:44
※ 编辑: D0128431 (114.137.243.9), 03/29/2018 10:58:17
2F:→ D0128431: 中午的 拍谢03/29 10:58
3F:推 lucien0410: 我有明清小说03/29 11:09
4F:→ lucien0410: 的语料库03/29 11:09
5F:→ lucien0410: 是做text summarization的意思吗?03/29 11:11
6F:→ D0128431: L 大 是的03/29 11:24
7F:→ D0128431: L大已pm询问罗03/29 11:37
8F:→ lucien0410: 术语翻成中文 我一下子看不懂03/29 11:40
9F:推 lucien0410: chinese gigaword 可能可以喔03/29 11:48
10F:推 lucien0410: openNmt 的论坛有用english gigaword 来训练text summ03/29 11:51
11F:→ lucien0410: arier 的示范03/29 11:51
12F:推 lucien0410: 中文的应该可以用 chinese gigaword 但我自己也没实03/29 11:54
13F:→ lucien0410: 际看过chiese gigaword的语料库长怎样03/29 11:54
14F:→ lucien0410: https://goo.gl/UYBA7U03/29 11:58
15F:→ lucien0410: 我找到样本了 没错 这个可以用03/29 12:09
16F:→ D0128431: 这个我有看过 但她的档案格式都好陌生QQ03/29 12:10
17F:→ lucien0410: 就是学会把text 变成headline03/29 12:10
18F:→ D0128431: 可以请问一下l大的下载网址吗03/29 12:11
19F:→ lucien0410: 搞定(懂)格式 整理资料 真的是最花心力的03/29 12:15
20F:→ lucien0410: 这个好像不是open dataset 03/29 12:21
21F:→ lucien0410: 看看你的图书馆有没有买
我今天看好像要付费 Q 不过还是谢谢你 03/29 12:24
22F:推 yolanda1203: Lope PTT corpus
我刚刚去看好像找不到地方抓资料唉Q
23F:→ D0128431: L大 我今天上去看好像要付费的样子03/29 20:05
※ 编辑: D0128431 (114.137.243.9), 03/29/2018 20:07:24 ※ 编辑: D0128431 (114.137.243.9), 03/29/2018 20:35:36
24F:推 lucien0410: http://icrc.hitsz.edu.cn/Article/show/139.html 03/29 23:36
这个我也有寄信去问了 还没人回覆我QQ ※ 编辑: D0128431 (114.137.243.9), 03/30/2018 07:43:24
25F:推 Telemio: 我以前有用过中文维基当作语料 03/30 08:09
26F:→ Telemio: 也有做chatbot时去爬虫ptt的大板当作语料 ptt爬虫还满方 03/30 08:10
27F:→ Telemio: 便的 google一下github有别人写好的crawler 03/30 08:10
28F:→ Telemio: 中文维基也可以自己google一下怎麽爬 03/30 08:10
目前我想法跟你类似 我也是打算去爬新闻来训练xD ※ 编辑: D0128431 (114.137.243.9), 03/30/2018 10:02:21
29F:推 toxicsweet: 那请问有人做English的text summarization吗?有推荐 04/12 21:54
30F:→ toxicsweet: 的模型和语料库吗 04/12 21:54
31F:推 lucien0410: 我知道英文的 04/13 03:17
32F:→ lucien0410: https://bit.ly/2HvxVvX 04/13 08:23







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BabyMother站内搜寻

TOP