随着语音合成技术的不断发展,人们能够利用目标说话人的少量语音样本生成高质量、自然度高的合成语音。此外,语音合成技术在汽车导航、语音对话系统和歌唱语音合成器等领域广泛应用,也提升了人们的生活便利和用户体验。然而,这也对现有的有自动说话人验证系统( ,ASV)的安全性构成了威胁。近年来,网络上存在许多高效的开源语音合成技术,不法分子可以利用这些资源和技术合成出具有目标人声特征的高质量合成语音,试图欺骗ASV系统,从而对当前ASV系统的安全性构成风险。
为了应对这种欺骗攻击对ASV系统安全性的威胁,需要设计一个合成语音检测算法来完成合成语音检测的任务,因此,随着语音合成技术的发展,合成语音检测的应用场景也在不断拓宽。在电话诈骗方面,诈骗分子利用AI软件合成声音进行诈骗,而利用语音合成检测技术则可以有效防范该犯罪行为;在语音识别系统的安全防护方面,声纹识别、语音助手、系统可能受到语音合成技术的攻击,如重放攻击、语音转换攻击、对抗样本攻击等,导致系统误判或被欺骗,语音鉴伪技术可以作为语音识别系统的安全防护层,通过检测语音的真实性,提高系统的鲁棒性和可靠性;在法律取证方面,语音合成检测技术可用于分析和确认录音的真实性,有助于判断证词的可信度;远程会议中,语音合成检测技术可以应用于参会者的语音认证,以确保参与者的身份和会议内容的安全。
目前也有公司()将语音合成检测技术进行实际应用,研究人员已经开发出一种人工智能算法,可以从的音轨中辨别真实的语言,它通过检查说话时单词的实际发音,以及这些发音是否与真实人类的说话模式相匹配。此外,一些硅谷科技巨头也积极的致力于寻找检测音频的方案。例如,谷歌与GNI合作,发布了一系列合成语音,其中包含由其深入学习的文本到语音(TTS)模型所说的数千个短语,来自英文报纸文章68种不同的合成语音,并涵盖了各种区域口音。该数据库提供给了2019 ASV spoof挑战的参与者使用,该竞赛旨在开发针对合成语音的对策,特别是可以创建区分真实和计算机生成的语音的系统。
目前,合成语音检测技术研究重点主要为特征提取方法和分类模型设计两个方面。
特征提取方法
合成语音检测系统的前端工作主要关注如何提取那些在合成语音中与真实语音有所区别的特征,以供后端分类器判定。这包括利用合成语音通常缺乏频谱和时域细节信息的特点来构建特征。在传统的检测方法中,通常采用精心设计的人工特征。随着基于数据驱动的深度学习方法的普及,前端特征逐渐演变为更加关注频谱等相对低层次的特征。目前,合成语音检测中常用的特征主要有频谱特征、身份特征和原始波形,其中频谱特征是应用最广泛的一类。
等人在ASV spoof 2017 v2数据集上比较了使用GMM后端时,MFCC特征和LFCC特征的性能,实验表明,LFCC特征的效果普遍好于MFCC特征。
由于声码器在重建波形时忽略相位信息,因此短时相位特征成为检测合成语音的有效指标之一。傅里叶变换得到的相位谱存在相位缠绕的问题,因此需要对其进行处理,以获取稳定而有效的相位特征。一些常用的相位特征包括群延迟(Group Delay,GD)、改进的群延迟( Group Delay,MGD)、基带相位差( Phase ,BPD)、瞬时频率导数( ,IF)以及相对相位偏移( Phase Shift,RPS)等。
Yang等人提出的基于长时窗口恒定Q变换(CQT)的一系列特征在合成语音检测任务中表现出卓越性能,这一研究领域显著提升了合成语音检测的效果。与短时快速傅里叶变换(STFT)相比,CQT的滤波器组中心频率按指数规律分布,滤波带宽各异,但中心频率与带宽比为常量Q。相较之下,STFT中每个滤波器的带宽是恒定的,与窗口函数相关,导致频率越高Q因子越大。鉴于人耳在听觉范围内的感知系统中,Q因子近似恒定,并且短时窗口难以很好地描述长时间跨度内的区分性信息,因此基于CQT的特征在合成语音检测方面表现更为卓越。
此外,研究指出合成语音的干扰主要存在于语音的子带级别,并且只有通过在同频带中提取高分辨率特征,才能可靠地捕捉这些干扰信息。因此,相较于全频带变换,子带变换能更可靠地捕捉合成语音中特定频段的细微特征。最新的研究大多采用基于子带变换的前端特征。Yang等人提出了三种基于子带变换的特征:恒Q等子带变换(CQ-EST)、恒Q倍频程子带变换(CQOST)和离散傅里叶梅尔子带变换(DF-MST)。通过静态系数、动态差分系数和加速度系数的特征组合,进而大大提高了算法的性能。
由于不同的特征注重于语音信号的不同信息,研究表明单一特征通常仅在检测特定类型的合成干扰时有效。因此,目前的研究主要采用融合多个不同前端子系统的方法,综合各种特征的优势,以达到更为出色的检测效果。
分类模型设计
传统方法中常用的后端分类器包括基于高斯混合模型(GMM)和支持向量机(SVM)的分类器。GMM使用多个高斯分布函数的线性组合来拟合任意分布,而在合成语音检测中,通过学习GMM的真实类和合成类,通过计算对数似然比来判断目标语音所属类别。传统的GMM分类器独立累积所有语音帧的分数,未考虑帧间关系。近年来,一些研究提出了改进方法,如使用孪生卷积网络综合考虑GMM得分和帧间关系,以提升分类效果。另外,一些研究也在选择特定帧计算对数似然比的决策方法上进行了改进,以减少在语音转换中未经修改的清音帧对决策得分的影响。
随着深度学习的发展,目前合成语音检测系统主要采用深度神经网络用于构建特征表示和分类网络。这些系统充分利用神经网络的特征学习能力,首先对输入特征进行学习,然后进行高级特征的表示和分类。当前研究主要集中在特定攻击类型或基于特定数据集,导致单一系统难以有效地检测各种合成攻击(例如TTS、VS和TTS-VC混合等),以及未知攻击在训练集中的缺失。由于难以事先知晓具体攻击类型,因此最新研究普遍致力于提升检测系统的泛化性能,即设计通用的检测系统,能够跨越不同合成攻击类型,并能够抵御不同通道环境中的噪声干扰。目前,基于深度学习的研究工作主要涉及深度神经网络结构、损失函数以及深度网络训练方法这三个方面。
深度神经网络通常采用基于卷积神经网络(CNN)的架构,例如轻量卷积神经网络(Light ,LCNN) 、深度残差网络(Deep ,)、挤压-激励网络( -and- ,SENet)。部分研究还引入了循环神经网络(RNN)架构对时序信息建模。2019年,等人提出了一种基于深度的检测方案,针对三种不同的前端特征(MFCC、频谱图、CQCC)进行分数融合。2020年,等人提出了一种具有良好通用性的轻量结构,可跨数据库和攻击类型,同时该网络又是的简化版,减少参数以防止过拟合。2019年,Gomez-提出了一种轻量卷积门控递归神经网络(LC-GRNN),该网络结合了LCNN和RNN的优势,能够在帧级别提取判别特征并学习上下文特征。2021年,Kuak等人结合LCNN中的最大特征图(Max Map,MFM)激活函数和残差结构,提出了检测系统,该模型参数较少且具有良好的检测效果。
近年来,合成语音检测领域普遍采用交叉熵损失(又称为损失)或AM-损失,但近期部分研究着重于设计更为有效的损失函数。这些研究主要致力于解决现有检测系统在面对未知数据时泛化能力不足的问题,并通过损失函数设计来应对这一挑战。Chen等人采用了增强边缘余弦损失函数(Large Loss,LMCL)和频率掩蔽增强,以促使神经网络学习更具鲁棒性的特征嵌入。LMCL损失的目标是将损失转化为余弦损失,从而使DNN能够学习到最大化类间方差并最小化类内方差的特征表示。Zhang等人认为不同合成攻击类型之间的分布并不相似,因此传统的拉近同类样本表示距离的训练方法影响了现有检测系统的泛化能力。为此,他们设计了一种新的损失函数,即OC-(One-Class ),通过压缩真实语音的表示来区分真实和合成语音。Gomez-等人提出了一种基于核密度估计( ,KDE)的损失函数,通过估计每个小批次内数据类的概率密度函数( ,PDF),计算每个小批次内所有训练类的KDE损失。实验结果显示,该损失相较于损失和损失更为优越。Wang等人对常用的不同损失函数的性能进行总结和比较,并针对基于边缘的对超参数设置敏感的问题,提出了一种无超参数的均方误差损失函数,使用概率-相似度梯度(-to- ,)。实验结果表明,基于损失的等误判率(EER)低于使用AM-和OC-损失的EER。
目前一些研究工作致力于从深度神经网络的训练方法方面提升检测系统的泛化能力,其中包括采用自监督学习、域自适应学习和对抗训练等策略。受PASE+启发,Jiang等人提出了一种基于多任务自监督学习的合成语音检测方案SSAD。该方法使用基于时域卷积网络( ,TCN)的SSAD编码器提取原始音频的深层表示,通过最小化回归任务和二分类任务的损失,协助编码器获取更为优越的高级表示。为解决数据集中信道不匹配的问题,Zhang等人提出了两种网络:多任务学习和对抗训练。多任务学习网络增加了信道分类器,而对抗训练网络在前者基础上在信道分类器前添加梯度反转层,形成最大最小化的对抗训练。在训练稳定时,网络能够学习到与信道影响无关的深度特征表示。受LwF( )启发,Ma等人采用连续学习方法训练合成语音检测系统DFWF,该模型有助于减少对过去知识的遗忘。通过在真实语音中引入额外的正样本对齐( ,PSA)约束,DFWF保持了真实语音特征表示分布的一致性。
参考文献
[1] /p/
[2], M., , H., Lee, K. A., et al. (2018). and : and back-end . In: 2018. ISCA: ISCA, 2018, 77-81.
[3]Yang, J., Das, R. K., & Zhou, N. (2019). of for . IEEE/ACM on Audio, , and , 27(12), 2373-2384.
[4]Yang, J., Das, R. K., & Li, H. (2020). of for . IEEE on and , 15, 2160-2170.
[5]Lei, Z., Yang, Y., Liu, C., et al. (2020). using for . In: 2020. ISCA: ISCA, 2020, 1116-1120.
[6]Kumar, A. K., Paul, D., Pal, M., et al. (2021). frame for with an to audio-data. of , 24(1), 193-203.
[7], M., Wang, Z., , M. B. (2019). Deep for audio . In: 2019. ISCA: ISCA, 2019, 1078-1082.
[8], P., Epps, J., , K., et al. (2020). light- for under . In: 2020. ISCA: ISCA, 2020, 1111-1115.
[9]Gomez-, A., , A. M., , J. A., et al. (2019). A light GRU-RNN deep for ASV . In: 2019. ISCA: ISCA, 2019, 1068-1072.
[10]Chen, T., Kumar, A., , P., et al. (2020). of audio . In: 2020 The and . ISCA: ISCA, 2020, 1-5.
[11]Zhang, Y., Jiang, F., Duan, Z. (2021). One-class voice . IEEE , 28, 937-941.
[12]Gomez-, A., -Lopez, J. A., , A. M. (2020). A based loss and its to ASV- . IEEE , 8, -.
[13]Wang, X., , J. (2021). A study on for . In: 2021. ISCA: ISCA, 2021.
[14]Jiang, Z., Zhu, H., Peng, L., et al. (2020). Self- audio . In: 2020. ISCA: ISCA, 2020, 4223-4227.
[15]Zhang, Y., Zhu, G., Jiang, F., et al. (2021). An study on for voice . In: 2021. ISCA: ISCA, 2021.
[16]Ma, H., Yi, J., Tao, J., et al. (2021). for fake audio . In: 2021. ISCA: ISCA, 2021.
关于我们
21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。
合作推广
稿件投稿 | 项目推广 | 创业支持
请发送需求至以下邮箱,我们将派专人与您联系