李泽宇个人主页 | Here belones to YuYu and ShuShu. We’ve been togethoer since Mar 2nd 2018. At president, ShuShu is a young cadre of the Heilongjiang government. YuYu is a graduate student of SJTU majored on CS(NLP dialogue generation). Hopefully, we will go smoothly well and come over the problems. Come on YuYu & ShuShu.💕

· 30 Jun 2023

abstract:纯粹基于自我注意力的神经网络，如视觉变换器（ViT），已被证明在各种视觉任务上优于使用CNN构建的DLM，从而将最初为语言处理开发的Transformer的成功扩展到视觉领域。最近的一项研究表明，类似的方法也可以应用于音频领域。具体而言，音频频谱图转换器（AST）在各种音频分类基准上取得了最先进的结果。然而，与CNN相比，纯Transformer模型往往需要更多的训练数据，AST的成功依赖于监督预训练，这需要大量标记数据和复杂的训练管道，从而限制了AST的实际使用。本文侧重于音频和语音分类，旨在通过利用自我监督的lear来减少AST对大量标记数据的需求

更改链接：