abstract:纯粹基于自我注意力的神经网络,如视觉变换器(ViT),已被证明在各种视觉任务上优于使用CNN构建的DLM,从而将最初为语言处理开发的Transformer的成功扩展到视觉领域。最近的一项研究表明,类似的方法也可以应用于音频领域。具体而言,音频频谱图转换器(AST)在各种音频分类基准上取得了最先进的结果。然而,与CNN相比,纯Transformer模型往往需要更多的训练数据,AST的成功依赖于监督预训练,这需要大量标记数据和复杂的训练管道,从而限制了AST的实际使用。本文侧重于音频和语音分类,旨在通过利用自我监督的lear来减少AST对大量标记数据的需求

更改链接:更改博客链接