作者geminitw (geminitw)
看板DataScience
标题Re: [问题] VAE在text generation的问题
时间Fri Aug 28 15:54:31 2020
※ 引述《somoskylin (八七booboo)》之铭言:
: 标题: [问题] VAE在text generation的问题
: 时间: Wed Jul 1 01:13:20 2020
: 推 geminitw: VAE 的 loss 不是 "设计" 出来的吧? 是推导而来的 07/02 23:
55
: → geminitw: VAE 是在找出 latent variable 的机率分布, 可以用高斯 07/02 23:
56
: → geminitw: 也可以用其他的分布, 也许 text 不适合用高斯 07/02 23:
57
: → seasa2016: 用高斯或其他的分布和怎麽评估reconstruct这两个不都可 07/03 01:
06
: → seasa2016: 以自己设计吗? 07/03 01:
06
: → seasa2016: 推倒的机率式并没有定义 07/03 01:
07
各位前辈好:
VAE 的 loss function, (前题为 p(t) 为 Gaussian, t: latent variable)
推导而来是由 下列的图片所解释, 不知我的理解是否有错?
https://i.imgur.com/LZfIwC4.png
因为 p(x|t) 也是 Gaussian (mean/covariance 是 NN),
所以就可以得到上述的 VAE loss = Reconstruction loss + regularization,
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.140.123.245 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1598601275.A.48F.html
※ 编辑: geminitw (223.140.123.245 台湾), 08/28/2020 16:10:16
※ 编辑: geminitw (223.140.123.245 台湾), 08/28/2020 16:13:53
※ 编辑: geminitw (223.140.123.245 台湾), 08/28/2020 16:14:17
1F:→ somoskylin: 我菜鸟,给你参考一下,KL divergence 是为了 p(z|x) 08/28 22:55
2F:→ somoskylin: 要跟 p(z)也就是 standard normal distribution 越接 08/28 22:55
3F:→ somoskylin: 近,同时 reconstruct 的期望值要越高 08/28 22:55
4F:→ somoskylin: 喔是q(z|x) 因为 p(z|x)难以计算,所以作者想了 reco 08/28 23:00
5F:→ somoskylin: gnition network q(z|x) 去估计 p(z|x) 08/28 23:00
6F:→ somoskylin: VAE的LOSS是从KL(q(z|x)|p(z|x))推出来的 08/28 23:07
7F:推 somoskylin: 而高斯只是可以把kl divergence 推导出用 mean 跟 var 08/28 23:14
8F:→ somoskylin: iance 组成的公式,是可以用其他的机率分布,原论文有 08/28 23:14
9F:→ somoskylin: 用白努力的样子 08/28 23:14
10F:→ yoyololicon: 这张图片的推倒不是很好懂= = 08/29 00:16
11F:→ yoyololicon: 还是喜欢把p(x)拆成elbo和KL(q|p)的推倒法 08/29 00:17
12F:→ yoyololicon: 另外提一下,把gaussian直接简化成l2 loss其实不太 08/29 00:22
13F:→ yoyololicon: 正确,因为没有考虑到gaussian 的covariance 08/29 00:22
14F:→ yoyololicon: 很多公开的vae implementation 都直接使用l2 loss, 08/29 00:24
15F:→ yoyololicon: 基本上就是预设这个gaussian 的covariance 是1 08/29 00:24
16F:→ yoyololicon: 这其实有点高估 08/29 00:25
17F:→ yoyololicon: 我这边说的gaussian是p(x|t)而不是posterior q(t|x) 08/29 00:26
18F:→ yoyololicon: 当然用bernoulli 当loss就不会有这问题 08/29 00:27