作者jaids (做工的人)
看板DataScience
标题[问题] 背景电视讲话声去除或人声提取
时间Fri Jul 7 19:21:08 2023
请问如果场景中有背景电视人声
或背景讲话声
要怎麽在语音辨识前去除呢?
或是有办法在语音辨识以前单独抽出想要辨识的人声音吗?
先谢谢各位任何建议了
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 46.15.133.255 (挪威)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1688728872.A.66A.html
1F:推 yiche: 想知道FFT效果好吗 07/08 16:04
2F:→ DrizztMon: 用别的NN model去解决 07/09 09:20
4F:→ chang1248w: meta那边去年好像还有推出语音分离,可以把多人分开 07/15 18:32
5F:推 j840715: tasnet 08/18 16:14
6F:推 yoyololicon: 先套个speech enhancement模型 08/30 07:33
7F:→ yoyololicon: 还是有背景人声就再做speaker separation 08/30 07:34
8F:→ yoyololicon: 得说一下 这些处理多少会影响语音辨识的准度 08/30 07:34