基于P300信号的辅助文字输入系统

2018-12-21 03:46:58徐海洋
电子制作 2018年22期
关键词:脑机波峰字符

徐海洋

(江苏省泰兴中学,,225400)

0 引言

随着科技水平的不断提高,脑机接口(Brain Computer Interface, BCI)已从四十年前的概念落地,发展成为在实际使用中大放异彩的实际产品,其可靠性与泛用性也在与日俱增。BCI实际上可以认为是一种特殊的人机交互通道,是指电子设备在脱离天然的神经–肌肉输出通道的情况下,直接从人的脑部活动所伴随的电信号中进行信息提取,以此来实现人与外界环境的交互或对外部设备的直接控制。脑机接口应用领域非常广,包括游戏、影音、康复等,其在医学领域上的表现尤其引人关注。总的来看,脑机接口发展前景乐观,发展潜力巨大,并且具有非凡的社会意义:成熟的脑机接口技术为很多病症患者(如脑中风、肌萎缩性(脊髓)侧索硬化、脑瘫等丧失活动能力的疾病患者)带来了新的希望,这是因为BCI系统能够为重度瘫痪者提供适当的支持性护理及基本交流能力,显著地提高了他们的生存能力和生活质量。

1 基本概念

■1.1 脑电信号与脑机接口

脑电图(EEG)是脑神经细胞电生理活动在大脑皮层或头皮表面的总体反映,是大脑神经元突触后电位的综合结果,是大脑电活动产生的电场容积导体传导后在头皮上的电位分布[3]。脑机接口(BCI)是一种连接人脑和外部设备的实时通信系统。主要由三大部分组成,分别是信号提取单元、信号分析与处理单元、信号输出单元。目前,研究的最多的是基于脑电(EEG)的BCI系统。EEG能够较为直观地反应大脑的电流活动,人们可以利用它从而实现对计算机等外部设备的直接控制。基于表面脑电的脑机接口,虽然目前仍然存在着空间分辨率低,信号频率范围有限,在持续的运动控制及不持续的选择过程中表现出类似自由度低、抗噪能力差、信号易衰减等不足之处,但相比于其他方式而言,其简单、方便、安全、便宜的优点得其在实际应用中具备其他系统所无法比拟的优势。

事件相关电位是一种特殊的诱发电位,在二十世纪六十年代首次被提出。该电位反映了对大脑刺激的认知加工过程,因此也被称为认知电位。ERP电位包含很多种,如P1、N1、P2、N2、P3等,主要依据信号出现的时间及幅值正负来命名。事件相关电位是对外部刺激的瞬态反应,具有较强的锁时功能,能够揭示认知活动产生的时间,因而被广泛应用于脑机接口当中。P300电位是ERP的一种,其峰值大约出现在事件发生300ms后,也应此而得名。P300信号主要产生于海马区,中央皮质区前顶叶为最佳记录部位。在运动失常的病人甚至脑干损伤患者中,P300信号相对稳定。此外,基于P300的BCI系统拥有约20–30字节/分的较快速度以及较好的信度与效度。Farwell和Donchin在1988年利用P300实现了最早的英文字母选择系统,他们通过将字母排列成一个6乘6的矩阵虚拟键盘并轮流闪烁,每次闪烁形成一个视觉刺激。受试者注视期望输出的字符(称为“靶字符”,对应的刺激称为“靶刺激”),同时在心中默数其闪烁的次数。这样,靶刺激将以一种较低的概率呈现,从而诱发P300电位[4]。

■1.2 神经网络

近些年来,神经网络在机器学习、图像识别等领域大放异彩,其强大的学习能力、自适应能力使其能够拟合出一些非常复杂的函数。由神经网络所构建的分类器也已经被证明具有很好的准确率和泛化能力[5]。

神经网络的基本原理是在一个有着若干隐藏层(每个隐藏层有若干神经元)的神经网络上给出输入(InputPattern)和输出(label),通过引入激活函数进行类似线性分割的多次分割,其分割的方向、位置由权重值决定,而分割效果好坏通过目标函数定义(往往是label与实际值之间的差的平方),并通过反向传播算法不减小目标函数,不断优化分割,最终实现准确的分类、识别。

在过去的脑机接口系统中,脑电信号在经过预处理后,往往还要经过特征提取,之后再进行分类识别。特征提取的方法包括独立成分分析、小波分析等,这种方法虽然能够大大简化分类问题,但存在逻辑上的一个缺陷:我们已经先入为主地将“特征”提取了出来,并将该特征作为我们分类的依据。但是在实际情况中这种特征是否具有代表性呢?在此我们可以举一个例子,在男女分类问题上,我们可以将是否存在喉结作为“特征”进行判别。但如果考虑跨性别者呢?在这种前提下,是否存在喉结就不再是一个准确的特征了。总之,在问题越来越复杂、计算量越来越大的今天,人为提取特征并不明智。

神经网络在图像处理方面表现优异的一大原因就是其出色的特征提取能力。不管是基础的多层感知器还是相对复杂的卷积神经网络,其基础都是依靠激活函数引入非线性,从而进行分类。当网络层数比较深时,神经网络能够提取出一些人本身很难意识到的特征,这些特征可能是抽象的、难以理解的,但对于分类却是至关重要的。因此,用神经网络直接对经过预处理的信号进行特征提取和分类的方向是正确的。

2 系统构造与原理

字符输入辅助系统由以下几部分组成:可佩戴视觉刺激与反馈系统,脑机接口,包含有信号预处理系统和神经网络(已经训练好的)模型的芯片。其工作逻辑如下:视觉系统给出刺激后,脑机接口将人的脑电响应输入给芯片,芯片对响应信号加以识别并将识别结果反馈给视觉系统,由使用者确认输入是否正确。

图1 系统工作逻辑

为了实现上述的功能,需要解决以下几个问题:

(1)如何在实际应用中产生靶刺激;

(2)如何训练神经网络(如何构造InputPattern、Label,如何确定各个超参数);

(3)如何准确判断辅助系统是否处于工作状态;

(4)如何使分类结果反馈给使用者并在二者之间产生互动。

下文将详细阐述在实际应用中如何解决这些问题。

■2.1 产生靶刺激与提取信号

当前针对不同字符组合、不同应用场景而提出的刺激形式各不相同,在此主要介绍两种:行列刺激发法和棋盘式刺激法。

为了更好地讲解这部分内容,我们临时定义三个概念,批、轮和次。一次代表将一次输入(即单个字符)的波形与label输入到网络中进行训练;一轮代表将所有字符训练一次;一批代表将所有字符训练若干轮(一轮训练很难达到较好的效果)。实际上我们很少以“次”为单位进行训练,这是因为神经网络的优化是针对所有输入进行的优化,即对于每个输入其输出都要尽可能地接近“label”,在此引入次这一概念只是为了更好地帮助读者进行理解。

2.1.1 行列刺激法

为了更好地介绍这种方法,我们在此引入Farewell在1988年所实现的实验范式,在该实验范式中,Farewell设置了36个可输入字符,排列成6×6的矩阵形式。假如在某一个场合中某被试者想要输入字符“A”,而该字符所在的行列为(3,4),则在输入过程中该患者将被要求注视该字符,而矩阵的闪烁过程如下:在每一轮中,矩阵的6行按照随机顺序依次闪烁,当在某一行闪烁后发现脑电中出现波峰,则可认为字符A在该行,之后进行列数的选择即可。这样,在每一轮中,我们通过依次进行行和列的闪烁,可以判断字符所在的行数和列数,并最终确定使用者想要选择的字符。这样进行若干轮(即一批)后,系统就对该名使用者完成了训练,得到了针对此人的判断网络。

2.1.2 棋盘式刺激法

行列式刺激法的弊端在于,行和列的选择不能同时进行,为了改善这种问题,我们可以设置一个布局类似棋盘的刺激矩阵。在实际应用中,面板上所有的字符随机、依次闪烁,当某字符闪烁并在闪烁300ms后检测到波峰,则可认为使用者想要输入该字符。

上述的两种方法是实际应用中比较合理的刺激方式,具体实现方式也是多种多样的,比如可以在使用者面前设置一个显示屏,以完成人机之间的互动。当然,也可以使用加强现实等更加先进的设备来实现该功能。

为了帮助读者更好地理解,下面给出刺激矩阵的示意图,见图2。

此部分解决了第一个问题,即如何产生靶刺激。

■2.2 信号分类—神经网络的构建

正如前文所说,神经网络的特点是具有很强的学习能力与自适应性,也正因此,参数的设置、输入的构成等都会对神经网络的表现产生重大影响,在这一部分,笔者将会介绍在语言输入系统中神经网络模型的输入、训练与验证。

图2 刺激阵列示意

InputPattern的构造:

从头皮直接提取的脑电信号夹杂着大量无用信息,正如前文所说,在实际应用中,被试者需要全神贯注,以实现概率更小的“靶刺激”,因此在一段较长的时序波形中,只有有限的几个时间窗口的信息是“有用”的。因此,我们首先要将有用信息提取出来,根据前文介绍,所谓的P300信号指的是脑电信号会在靶刺激出现后的300ms出现一个峰值。显然,我们可以在在时序波形中设置一个窗口,当窗口检测到波峰,便将该段波形作为这次刺激的响应波形。由于在实际应用中脑电信号的提取是多通道的,因此每次刺激的响应也是多通道的。例如,假如在时序波形中的窗口长度设置为L,被试者头部安装了N个电极,那么每组响应数据在输入神经网络中时其输入通道的大小为L*N。

Label的设置:

在本项目中,神经网络所识别的并不是某一个字符,而是P300的正波峰,这是因为我们对字符的识别实际上是要将波峰与闪烁字符的时间编码相结合。因此,我们可以将Label设置为1和0,1代表出现波峰,0代表未出现波峰。

此部分解决了第二个问题,即如何训练神经网络。

训练集与测试集:

字符的输入本质上是一个多分类问题,既然我们要采用神经网络来解决这类问题,那么势必要确定神经网络的“标签”,即label。Label的设置要依据实际应用场景,亦须考虑到刺激矩阵的构建,我们不妨假设在某一场景中我们需要6*6个分类(其中包括一个“确认”和一个“返回”),可以采取经典的“棋盘式”的刺激布局。

对于每一种字符,我们进行R次信号记录,那么实际上我们最终有R组数据,每组数据含有36个字符类型(每个类型的数据数量为L*N)。

容错率的设置:

神经网络的准确率虽然不断提高,但在实际应用场景中为了保证其泛用性,不宜使用过于复杂的算法与结构。同时,无论准确率如何提高,误判是不可避免的。因此,应该设立一种容错机制,使得辅助系统在不算很高的识别率下能够实现更加准确的输入。

在此,我们设置一种判断逻辑:

图3 防止误入工作状态的程序逻辑

该部分解决了第三个问题,即如何保证辅助系统不会不合时宜地进入工作状态。

我们也可以设置一套类似的系统来完成人机交互。

图4 一种交互逻辑

如图4所示,通过这种交互系统,用户不会错误输入信息,如果想要更加保险,增加几层逻辑即可。这部分解决了第四个问题。

3 总结

在本文中,我们介绍了一种帮助渐冻症患者进行人际交流的字符输入设备,该设备的核心技术在于BCI脑机接口与神经网络。值得注意的是与传统的脑机接口技术的“信号提取–信号预处理–特征提取–模式识别”相比,我们使用神经网络直接进行了特征提取并加以识别,即“信号提取–信号预处理–神经网络分类”。这种方法与传统方法相比能够提取更加抽象的特征并完成更加复杂和抽象的逻辑。尽管神经网络在增加逻辑复杂度、计算复杂度的同时也可能会引入其他问题(比如维度爆炸与过拟合等),但这些问题只是神经网络暂时的缺点,当前的人工智能热潮也在不断地解决这些问题,因此神经网络的确是解决类似问题的理想之选。

随着技术的进步以及其他更加复杂的网络的开发(例如循环神经网络),相信类似本文所介绍的文字输入系统的辅助系统也会不断迭代,推陈出新,其性能会越来越强,价格会越来越低,在可以预见的未来,类似的系统必然会帮助人类获得更加美好的未来。

猜你喜欢
脑机波峰字符
惊世骇俗的“脑机接口”技术
寻找更强的字符映射管理器
基于ssVEP与眼动追踪的混合型并行脑机接口研究
载人航天(2021年5期)2021-11-20 06:04:32
脑机结合的未来
作用于直立堤墙与桩柱的波峰高度分析计算
埃隆·马斯克的新型脑机接口为何人开发?
英语文摘(2020年11期)2020-02-06 08:53:26
字符代表几
一种USB接口字符液晶控制器设计
电子制作(2019年19期)2019-11-23 08:41:50
消失的殖民村庄和神秘字符
儿童标准12导联T波峰末间期的分析