EN
新闻与讲座

陈婧团队在2024 ICASSP听觉脑电解码国际挑战赛中取得佳绩


由国际声学、语音与信号处理会议(International Conference on Acoustics, Speech and Signal Processing,ICASSP)发起的“听觉脑电解码国际挑战赛”(ICASSP2024 Grand Challenge-Auditory EEG)近期在韩国首尔公布比赛结果。北京大学智能学院、国家生物医学成像科学中心陈婧研究员率领团队,在该挑战赛设置的两个赛道中分别获得冠军和亚军,也是唯一一支在两个赛道中均获奖的团队。


言语解码指通过外部设备采集获取人脑内有关语音的脑电信号,将其还原成言语信息。应用场景是让语言障碍者在戴上神经信号采集设备后能与他人进行直接交流。这一原本出现在科幻片中的技术,随着脑机接口技术的飞速发展,已经越来越接近现实。日前,陈婧团队在语音信息处理领域顶级会议ICASSP举办的“听觉脑电解码” 国际挑战赛中取得佳绩,充分彰显生物医学成像科学中心在这一尖端领域的国际领先地位。

脑机接口指在脑与外部设备之间创建的直接连接,实现脑与设备的信息交换。其应用场景包括情绪的检测与评估、辅助睡眠、治疗癫痫、意念控制、脑创伤患者的治疗与康复训练等等。从脑电信号中解码出语音的言语解码技术,由于鲜明的技术突破性和社会公益价值,成为其中较为引人注目的一项应用。

言语解码被认为有潜力帮助瘫痪病人恢复与外界言语交流的能力。然而,当前言语解码技术大都依赖采用颅内电极(Electrocorticography,ECoG)信号,这限制了这项技术的应用范围。考虑到非侵入式的脑电记录(EEG)具有便携性、无创性的优势,越来越多的研究者期望实现基于EEG的言语解码。由于广阔的应用场景与良好的社会效益,这一赛道吸引了众多顶尖科研团队进行角逐比拼。

本次听觉脑电解码国际挑战赛(Auditory EEG Challenge, ICASSP 2024)由国际声学、语音与信号处理会议(International Conference on Acoustics, Speech and Signal Processing,ICASSP)发起,该会议是全世界最大,也是最全面的信号处理及其应用方面的顶级会议。今年的挑战赛试图研究听者在自然连续语音刺激下,大脑活动(EEG)和语音刺激之间的关系。该挑战赛共设置“分类”和“回归”两个赛道。其中,分类赛道是给定一个脑电片段,要求从包含匹配语音片段和4个不匹配语音片段的集合中挑选出匹配的语音片段。回归赛道则要求从脑电中重构语音刺激的梅尔谱。本次挑战赛吸引了来自全球各地高校和研究机构众多团队,其中分类赛道共有59支队伍正式提交结果(产生3支获奖队伍),回归赛道共有49支队伍正式提交结果(产生2支获奖队伍)。陈婧团队(PKU-SHRC)在两个赛道中分别获得冠军和亚军(前5名性能比较见图1),是本次比赛中唯一一支在两个赛道中均获奖的团队。

49e42a21512c4dfc84c8a091118a010f.png

图1. 听觉脑电挑战赛分类赛道与回归赛道的前5名性能比较


在分类赛道上,陈婧团队联合语音的高层级特征(语义、句法、音素)和低层级特征(包络、梅尔谱),利用神经网络和对比学习训练将多层级语音特征和脑电进行关联,提出了一种多层级语音特征输入的对比学习框架(图2)。该框架使用了包络、梅尔谱、wav2vec、gpt这些不同层级的语音特征,并通过消融实验证明了使用多层级语音特征的重要性(表1)。最终,该算法准确率达到60.29%(机会水平为20%),该网络在分类赛道中获得亚军。

f0924af2f5134721bee9191c241a996b.png

图2. 研究团队在分类赛道上提出的多层级语音特征输入的对比学习框架

表1 针对多层级特征的消融实验证明了使用多层级特征的必要性

使用特征

解码准确率

env

43.34±1.44

mel

50.51±2.51

env+mel

54.67±2.02

wav2vec

69.95±2.60

gpt

34.84±2.37

env+mel+ wav2vec

71.04±2.51

env+mel+ wav2vec +gpt

71.54±2.79


在回归赛道上,陈婧团队提出了一种迭代式拼接操作的深度卷积神经网络ConvConcatNet(图3)。ConvConcatNet共包括6个模块,其中每个模块中都会将中间结果与原始脑电进行拼接,在每个模块的最后使用空间注意力层对每个通道赋予权重。考虑到重构语音本身是对语音反应的逆过程建模,这样的设计期望利用人脑对声音的加工特点:在人脑处理声音时,低层级脑区(例如STG)对的声音反应早于而高层级脑区(例如IFG)。通过拼接操作,每一个模块同时获得已经加工处理后的脑电特征以及初始脑电,并通过空间注意力层为每个通道赋予权重,从而隐式完成人脑加工声音逆过程的建模。最终,该网络框架重构的梅尔谱相较于其他参赛队伍提交的结果,与真实梅尔谱最相似,在回归赛道中获得冠军。

286ea0c28fc843af84b4f2c3cc232652.png

图3. 研究团队提出的迭代式网络框架ConvConcatNet


该项研究得到南京市科技局项目“基于汉语言的非侵入式脑机接口编解码关键技术研发”支持,程和平教授是该项目的指导专家,陈婧研究员是项目负责人。这次挑战赛的成绩标志着北京大学国家生物医学成像科学中心在言语解码领域取得了重要进展,也为从无创神经信号中解码语音提供了新的可能性。