作者st1009 (前端攻城师)
看板DataScience
标题[问题] RNN-T 与 CTC 差异
时间Thu Nov 26 09:12:44 2020
大家好,想讨论一下
RNN-T(Transducer)与CTC(Connectionist Temporal Classification)有哪些差异?
我目前参考的论文是:
Sequence Transduction with Recurrent Neural Networks
(
https://arxiv.org/abs/1211.3711)
目前的结论有以下几点:
1. RNN-T为CTC的改进
2. 相较於CTC,RNN-T多了Prediction Network(PN)
3. 两者解码过程不同
4. Transcription Network(TN)用双向RNN,原版的CTC是单向的。
我目前在思考以下几点问题:
1. 不知道以上结论是否有误?或者需要补充的地方。
2. 我听说RNN-T训练困难,是否是因为记忆体需求过大?又或者有记忆体外的原因?
3. 他庞大的记忆的需求是来自哪里?(PN?TN?解码方式?)
目前我知道Bi-LSTM应该造成不小的影响,但是否还有其他庞大的记忆体需求?
因为现在Bi-LSTM也算是常见架构,但记忆体被说话的好像不多。
4. 假设不使用PN会如何?感觉PN有点类似LM的概念,如果不使用效果会差很多吗?
不知道在速度以及效能差异如何?
5. 我能不能拿CTC模型加上额外训练的PN视为一个简易RNN-T这样会有问题吗?
乍看之下,感觉PN是可以独立,在CTC分数上,额外加上PN分数,感觉概念上也很类似
6. 假设想改RNN-T的PN不知道有没有建议的资源?目前手上的程式PN TN是包一起的。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.122.53.124 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1606353168.A.B30.html
※ 编辑: st1009 (1.163.137.194 台湾), 12/01/2020 22:11:14