作者D0128431 (运气小马)
看板DataScience
标题[问题] 求推荐中午的语料库
时间Thu Mar 29 10:13:06 2018
大家好
小弟最近在做
文本摘要中生成式摘要
需要中文的文本资料库去进行训练模型
但上网找都没有找到
合适用来训练模型的资料库
不知道各位大大
有没有推荐适合的资料库呢?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.137.243.9
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1522289588.A.097.html
※ 编辑: D0128431 (114.137.243.9), 03/29/2018 10:15:13
1F:推 del680202: 中午的语料库?03/29 10:44
※ 编辑: D0128431 (114.137.243.9), 03/29/2018 10:58:17
2F:→ D0128431: 中午的 拍谢03/29 10:58
3F:推 lucien0410: 我有明清小说03/29 11:09
4F:→ lucien0410: 的语料库03/29 11:09
5F:→ lucien0410: 是做text summarization的意思吗?03/29 11:11
6F:→ D0128431: L 大 是的03/29 11:24
7F:→ D0128431: L大已pm询问罗03/29 11:37
8F:→ lucien0410: 术语翻成中文 我一下子看不懂03/29 11:40
9F:推 lucien0410: chinese gigaword 可能可以喔03/29 11:48
10F:推 lucien0410: openNmt 的论坛有用english gigaword 来训练text summ03/29 11:51
11F:→ lucien0410: arier 的示范03/29 11:51
12F:推 lucien0410: 中文的应该可以用 chinese gigaword 但我自己也没实03/29 11:54
13F:→ lucien0410: 际看过chiese gigaword的语料库长怎样03/29 11:54
15F:→ lucien0410: 我找到样本了 没错 这个可以用03/29 12:09
16F:→ D0128431: 这个我有看过 但她的档案格式都好陌生QQ03/29 12:10
17F:→ lucien0410: 就是学会把text 变成headline03/29 12:10
18F:→ D0128431: 可以请问一下l大的下载网址吗03/29 12:11
19F:→ lucien0410: 搞定(懂)格式 整理资料 真的是最花心力的03/29 12:15
20F:→ lucien0410: 这个好像不是open dataset 03/29 12:21
21F:→ lucien0410: 看看你的图书馆有没有买
我今天看好像要付费 Q 不过还是谢谢你
03/29 12:24
22F:推 yolanda1203: Lope PTT corpus
我刚刚去看好像找不到地方抓资料唉Q
23F:→ D0128431: L大 我今天上去看好像要付费的样子03/29 20:05
※ 编辑: D0128431 (114.137.243.9), 03/29/2018 20:07:24
※ 编辑: D0128431 (114.137.243.9), 03/29/2018 20:35:36
这个我也有寄信去问了 还没人回覆我QQ
※ 编辑: D0128431 (114.137.243.9), 03/30/2018 07:43:24
25F:推 Telemio: 我以前有用过中文维基当作语料 03/30 08:09
26F:→ Telemio: 也有做chatbot时去爬虫ptt的大板当作语料 ptt爬虫还满方 03/30 08:10
27F:→ Telemio: 便的 google一下github有别人写好的crawler 03/30 08:10
28F:→ Telemio: 中文维基也可以自己google一下怎麽爬 03/30 08:10
目前我想法跟你类似 我也是打算去爬新闻来训练xD
※ 编辑: D0128431 (114.137.243.9), 03/30/2018 10:02:21
29F:推 toxicsweet: 那请问有人做English的text summarization吗?有推荐 04/12 21:54
30F:→ toxicsweet: 的模型和语料库吗 04/12 21:54
31F:推 lucien0410: 我知道英文的 04/13 03:17