首页> 中国专利> 一种具有语音评估功能的网络教学方法及系统

一种具有语音评估功能的网络教学方法及系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

提供一种语音评估方法以及使用该方法的网络教学方法及系统。根据本发明的语音评估方法，语音的音素状态被用来替代传统的梅尔倒谱系数(MFCC)训练出来的多高斯混合模型，并以此为特征来计算后验概率和零阶Baum-Welch统计量；利用多种语言的音素识别器以提取基于音素的语音特征。本发明表明这基于多种语言提取的特征在捕捉非本土发音的信息时是互补的并且基于音素持续时间的特征在自动本土口音评估中是有效的。最终通过融合系统后，本发明的方法在开发集和测试集上达到了0.5706和0.6089的Spearman相关系数。此相关系数表明，本发明提出的方法在口语评估中是十分准确并有效的。

著录项

公开/公告号CN105578115A

专利类型发明专利
公开/公告日2016-05-11

原文格式PDF
申请/专利权人深圳市鹰硕音频科技有限公司;
展开▼

申请/专利号CN201510977082.X
发明设计人李明;全小虎;卢启伟;徐永键;
展开▼

申请日2015-12-22
分类号H04N7/15(20060101);H04N5/76(20060101);G10L25/48(20130101);G10L25/69(20130101);G09B5/06(20060101);G06Q50/20(20120101);
代理机构北京和信华成知识产权代理事务所(普通合伙);
代理人胡剑辉
地址 518100 广东省深圳市宝安区新安街道新安三路建达工业园1栋二楼202B
入库时间 2023-12-18 15:20:54

法律信息

法律状态公告日

法律状态信息

法律状态
2022-12-02

专利权人的姓名或者名称、地址的变更 IPC(主分类):H04N 7/15 专利号:ZL201510977082X 变更事项:专利权人变更前:深圳市鹰硕教育服务有限公司变更后:深圳市鹰硕智能科技有限公司变更事项:地址变更前:518000 广东省深圳市宝安区新安街道兴东社区留仙三路6号鸿威工业区厂房D栋301 变更后:518000 广东省深圳市宝安区新安街道兴东社区留仙三路6号鸿威工业区厂房D栋301

专利权人的姓名或者名称、地址的变更
2019-09-27

专利权人的姓名或者名称、地址的变更 IPC(主分类):H04N7/15 变更前: 变更后: 申请日:20151222

专利权人的姓名或者名称、地址的变更
2016-10-26

授权

授权
2016-06-08

实质审查的生效 IPC(主分类):H04N7/15 申请日:20151222

实质审查的生效
2016-05-11

公开

公开

说明书

技术领域

本发明涉及一种基于多语言音素后验概率和多语言音素持续时间相关特征的自动本地口音评估方法，属于语音识别领域，特别是涉及口语评估领域，还涉及一种具有语音评估功能的网络教学方法及系统。

背景技术

近年来，随着移动互联网的普及和网络教学系统的快速发展，传统教学模式已逐渐不能满足用户对于多媒体信息化教学方式的需求。在网络教学过程中，教学过程的实时同步显示、教学过程的实时录制以及快速有效的点播回放，越来越为广大用户所关注。现有技术中，为了满足上述需要，在同步显示和录制等方面，提出了很多方案：

现有技术1(《中国图象图形学报》，第8卷第9期，2003年9月，张丽萍等，“一种基于拷屏和压缩技术的屏幕共享方案”)公开了常见的屏幕共享包括两种方式：利用操作系统底层的GUI矢量指令实现；利用拷屏和压缩技术实现屏幕共享，屏幕显示内容不是通过拆解成具体的绘图命令来实现，而是通过先拷贝屏幕图像，然后进行数据压缩处理并传到客户端，最后由客户端解码显示来实现拷屏内容的重现。

如图1所示，现有技术2(《现代计算机》，2006年第5期，黄帆，“基于压缩域的JPEG图像检索技术”)公开了一种图像压缩方法。所述方法基于DCT变换的JPEG有损压缩编码步骤通常包括：首先，把图像分成若干个8×8矩阵的块，其中每块由一个直流特征值(DC特征值)和63个交流特征值(AC特征值)组成；第二，进行正向DCT变换处理，把空间域转换成频率域表示，目的是使得能力集中在少数的特征值上；第三，根据量化表对DCT频率特征值进行有损量化，消除视觉冗余；第四，对量化后的特征值进行“Z”型排序，形成一维特征值序列；第五，对DC特征值用差分脉冲编码调制(DPMC)算法进行编码，对AC特征值用行程长度编码(RLE)进行无损压缩；最后，对经过所述处理的DC和AC特征值进行Huffman编码。DC特征值和AC特征值代表了图像中每一块的纹理特征和像素值，是构成图像的主要因素。

但是，类似这种图像的获取如屏幕拷贝(或称截屏)要么人工手动进行，要么根据时间设定自动截屏发送，但是都存在截屏发送的信息是否重复，是否有效的问题，不必要的或者重复图像的发送会增加网络传送的负担，还会影响用户的体验。

如图2所示，现有技术3(CN101141271A，公开日2008年3月12日)公开了一种网络教学系统，包括：录制器100、处理器200、第一网络300、第二网络350，服务器400、数据库500及三个客户端600。其中，录制器100主要包括摄像头(图未示出)及无线数字话筒(图未示出)以录制课件的视频信息及音频信息。第一网络300用于将所述课件信息传送至服务器400。服务器400一方面用于进一步处理所述课件信息，产生课件数据，另一方面用于在数据库500中搜寻并调用所述课件数据，进而将所述课件数据转换回所述课件信息。数据库500用于存储所述课件数据。第二网络350用于连接客户端600与服务器400。客户端600用于方便用户查询课件信息及调用课件信息。

如图3所示，现有技术4(CN103067683A，公开日2013年4月24日)公开了一种用于远程教学的全自动录播系统，包括：视频信号采集模块1、音频信号采集模2块、自动录播编辑模块3和图形工作站4，视频信号采集模块1包括教师摄像机、学生摄像和板书摄像机，均采用采用带有旋转云台的快速球形摄像机，分别用于拍摄教师、学生和板书的影像。使用时，视频信号采集模块1和音频信号采集模块2均与自动录播编辑模块3连接，将采集的视频及音频信号传输至自动录播编辑模块3。自动录播编辑模块3与图形工作站4连接，将视频及音频信号编辑成音视频文件后传输至图形工作站4，通过图形工作站4对音视频文件进行压缩编码，生成流媒体文件。整个授课录制过程无需专人操作控制，而且生成的流媒体文件可以上传至互联网。

如图4所示，现有技术5(CN101043469A，公开日2007年9月26日)公开了一种手机在多媒体教室中通过无线网络录制个性化多媒体课件的方法，通过课件服务中心、课件发送中心、手机之间信息交互实现，课件服务中心具有外部IP地址，为教学楼中的所有多媒体教室服务；课件发送中心采集教师授课电脑的屏幕信号、教师的视频和音频信号，经数字化后将屏幕、视频和音频数据发送到服务中心；手机通过无线网络连接到课件服务中心，在需要的时候将其中一路或几路流媒体数据保存到手机存储卡中，录制结束后保存为AVI文件，能在手机或电脑上直接观看。

如图5所示，现有技术6(CN103646573A公开日：2014年3月19日)公开了一种全景模式教学系统的专用格式文件的生成方法，所述教学系统包括全景课件制作系统，全景课件制作系统获取老师或互动者的动作、音频、课程资料以及上述数据被获取时对应的时间数据；所述的动作包括：插入文字或图片、实验过程演示、绘制线条、绘制几何图形、板擦工具或小黑板工具，教学系统通过麦克风获取老师或互动者的即时音频，同时通过鼠标、键盘、写字板或电子白板采集老师或互动者在当前系统界面的动作，并将动作进行数据分析，获取动作产生的时间、动作所产生的路径、动作所携带的附加数据和动作类型数据，并按时间顺序记录，所述动作分为笔迹型、媒体型和数据型，笔迹型、媒体型和数掘型数据都包括两个部分：路径部分和数据部分；笔迹型动作，则路径部分完整记录动作路径的物理坐标序列，数据部分不启用；媒体型动作，则路径部分记录多媒体文件出现在课件中的坐标，数据部分则记录多媒体文件的物理地址；数据型动作，则路径部分记录数据在课件中使用时的坐标，数据部分写入该文件的完整二进制数据流。

综上所述，现有的网络教学方法和系统在实时同步显示和录制点播方面还存在以下不足：

学生用户终端接收同屏数据的速度缓慢，教学过程不流畅，存在卡顿现象。这是因为现有网络教学系统在传送同屏数据的过程中，多数采用视频流及教师根据自己的判断手动屏幕截图的方式，导致学生用户终端用户数量过多的时候，需要传送大量数据，多并发进行网络传送，经常出现速度缓慢，显示不流畅，数据卡顿的现象，影响到了学生的上课体验，而且教师一边讲课一边还要考虑适时进行截屏操作，有时候会忘记截屏发送给学生，而学生又无法判断有没有获得及时的截屏图像，影响教学效果。

具体来讲，存在的不足包括：1、录制过程繁琐，有些需要专人进行现场录制；2、视频文件庞大，需要牺牲课件质量多次格式转换降低文件大小；3、服务器存储系统要求高；4、本地录制要求用户端机器配置和性能较高，上传速度慢，实现回放困难；5、模拟系统角色耗费服务器资源高，无法满足课堂的大并发网络录制要求；6、对点播回放流媒体服务器集群性能要求高；7、点播回放要求服务器带宽高；8、点播回放要求用户自身带宽高(文件过大)；9、使用2G/3G/4G等无线网络观看时，卡顿严重，不够流畅，而且耗费流量高。

进一步的，当用户将文件下载到本地观看时，不仅占用大量存储空间，又不能保护教学资源提供方的版权，造成教学资源的肆意传播，而如果进行复杂的加密处理又会占用网络带宽资源和设备处理器资源，影响用户的体验。

此外，现有技术已有的商业软件可以实现对于屏幕操作一举一动的记录，并保存为AVI或MicrosoftRealNetworks数据流格式，但是这同样会占据大量的存储空间而且其提供的数据格式也是流媒体的。

而现有技术6尽管提出了教学过程录制一些想法，但是却没有给出具体实现的途径，也没有公开系统化的各种不同数据单独获取单独存取，特别是没考虑由教学系统统一产生时间戳，通过统一的时间戳和课件的统一标识存储和读取等管理各种数据流的构思。

近年来，支持第二语言(除母语外的第一门外语)的语音技术相关的应用快速增加，尤其是针对英语这门语言的学习者们。随着计算机辅助的发音训练系统(CAPT)的引进，第二语言的学习者们可以不通过真人老师自己练习口语发音。

为支持CAPT系统，许多研究已经应用了自动语音识别技术来评估非本土语言学习者的发音。S.M.WittandS.J.Young,“Phone-levelpronunciationscoringandassessmentforinteractivelanguagelearning,”Speechcommunication,vol.30,no.2,pp.95–108,2000中提出了发音优秀程度(GoodnessofPronunciationGOP)的打分方法,它在基于字典的音译结果已知的情况下，为语音中的每一个音素计算出一个单独的分数。给定一段语音，它用一组HMM模型计算出一个特定音素上的似然值，然后使用似然值的对数形式归一化后来定义发音质量。而另一方面，一些研究通过基于持续时间，能量，基音和基本频谱信息的韵律学参数来评估非本土学习者的发音，得到的分数与人为打分具有较高的相关性。

之前的大量研究为每一个分隔的音素打分，这种打分方法无法体现说话者语音整体的发音情况。除此之外，目前包括所述研究在内的大多数研究没有使用基于多高斯模型(GMM)的超向量方法，这些超向量特征原本是提出来解决说话人验证问题的，但是在副语言挑战中也具有较好的性能。当语音持续时间很短，该超向量方法中基于一阶Baum-Welch统计量的超向量特征性能较差，因为没有足够的特征帧来计算统计量，然而基于零阶统计量的超向量却可以实现更好的性能。

关于确定音素分段方面，大多数之前的研究皆只采用英语的音素识别器。然而非本土语言发音是一个普遍的语言现象，该现象表明非本土语言的说话者们倾向于携带它们母语中的音调，音韵和发音规则。单单采用英语的音素识别器可能不能够捕捉到一些来自于说话者母语中的特别的信息。因此，我们进一步采用一些其他语言的音素识别器来捕捉非本土发音的信息。

由于本土说话者与非本土说话者对于不同语言的精通程度的不同，音素持续时间近来被证明是一种高效的特征。定义和使用与音素持续时间相关的特征将有希望大大提高口音评估系统的性能。

为此，希望提供一种有效的同步显示、实时录制和点播回放并且具备语音评估功能的网络教学方法及系统，希望在网络教学或在线会议过程中，可以实现教师用户终端与学生用户终端之间的实时同步显示、教学过程的实时有效录制、以及事后的顺畅点播回放以及可能用到的语音评估。

比如，对于用户使用多媒体白板的功能操作、讲话/说话音频、与其他用户的交流和/或辅导等的交流音频进行自动判断同步传送、录制，分别形成不同的数据流，而不是完全以流媒体的格式将整个事件记录下来，使得网络用户可随时随地方便的通过网络从云端服务器或局域网服务器进行点播回放。

发明内容

需要说明的是，尽管说明书中主要以网络教学系统或者网络会议系统的名义描述了本发明的实施，但是可以理解的是，本发明的方法和系统还可以用作其他基于网络的在线交流过程的录制和播放。

也就是说，本发明的网络教学不但包括传统意义的网络教学，还涉及在线培训、应急指挥(地图标注和音频录制)、金融系统或者在线会议系统的教学活动或者会议过程，并且在网络教学、在线培训、应急指挥(地图标注及音频录制)、金融系统(操盘讲解)或者在线会议过程中，实现了对多媒体课堂或者会议内容的实时录制和点播回放。

此外，本发明的网络教学也不局限于学生和教师的形式，可以包括以教师用户和学生用户、或培训用户为参与主体的在线网络教学、远程网络教学、本地网络教学，和以企、事业单位员工等各种团体成员为参与主体的在线网络会议、远程网络会议、本地网络会议，以及其他的利用网络进行在线交流和/或文件内容展示的交流/交互形式，比如远程协同工作等。

本发明的目的之一提供一种用于网路教学的语音评估方法，特别是基于新的语音特征的自动本地口音评估方法，该方法改进和定义新的语音特征，大幅度提高了本地口音评估系统的性能。本发明还涉及一种使用所述语音评估方法的具有语音评估功能的网络教学方法及系统。

本发明的语音评估方法，特别是一种基于新的语音特征的自动本地口音评估方法，包括以下步骤：

步骤1)，语音信号的采集，形成待评估音频数据；

步骤2)，语音特征序列的提取，提取所述音频数据的3种特征：梅尔倒谱多高斯后验概率(MGPP特征)、音素后验概率(PPP特征)和基于音素持续时间的语音特征；

步骤3)，特征序列层面上的融合：分别融合所述PPP特征和所述基于音素持续时间的语音特征，得到融合后的PPP特征和融合后的基于音素持续时间的特征；由于PPP特征和基于音素持续时间特征都是基于5中不同语言的音素上提取的，所以每个基于音素的特征都会产生5种不同的子特征，每个不同语言音素一个，最后融合或简单拼接5种子特征，得到最终的PPP特征，和基于音素持续时间的特征。

通常来说音素是词(中文：字)的更细节的单元，比如one的音素是wahn这三个音素，一的音素yi这两个因素(每个音素都可以单独的作为发音单元的)，可以简单理解为中文的音素就是这个字发音的各个声母韵母，英语单词的发音可以理解为单词的音标；在语音识别中，一个音素的参数是由大量语音数据训练出来的，最简单理解的方法：找很多人发w(呜)，然后提取这些音频的特征，训练出来w的音素参数。

后面的音素识别器帮助定界音素，这样就不用专门的音素的语音了，只要一段语音有w，就能知道哪一段是w。上述的参数具体形式可以参考权利要求2中UBM模型，ubm模型中分多个高斯，每个高斯有不同的权值，均值，方差等参数，那么音素类似，通常一个音素分为几个状态(state)，每个state也是由许多高斯组成，有着类似的参数结构。

基于5种不同语言的音素就是，有5套这个音素集，每套是一种语言的，在每套音素集上提取PPP特征，然后合起来这5个ppp特征。

步骤4)，评分层面上的融合：采用两层支持向量回归SVR来进行评分层面的融合，以进一步提升整个系统的性能；

步骤5)，性能评估：采用Spearman系数来体现机器评估打分与人类评价打分相关性，以此表示特征对于自动本地口音评估的有效性。

步骤22)，MGPP特征的提取方法：采用UBM模型对每个音频数据提取MGPP特征，其具体方法为，训练具有M个高斯的GMM-UBM模型，它们的参数为λ：

λ_i＝ω_i，μ_i，Σ_i，i＝1，...，M(1)

其中λi为第i个高斯的参数集合，其中有3个参数，分别为：ωi是该高斯权重，μi是该高斯均值和Σi是该高斯方差；

对于每个基于帧的MFCC特征χt，其后验概率有以下公式计算得出：

$> P (λ_{i} | χ_{t}) = \frac{ω_{i} p_{i} (χ_{t} | μ_{i}, Σ_{i})}{Σ_{j = 1}^{M} ω_{j} p_{j} (χ_{t} | μ_{j}, Σ_{j})} - - - (2)$ >

该后验概率表示MFCC特征的χt这一帧属于第i个高斯的概率，MGPP特征如下定义：

$> \begin{matrix} b = [b_{1}, b_{2}, ..., b_{M}] & b_{i} = \frac{y_{i}}{T} = \frac{1}{T} Σ_{1}^{T} P (λ_{i} | χ_{t}) \end{matrix} - - - (3)$ >

$> M G P P = \sqrt{b} - - - (4)$ >

所述两条公式中计算的是零阶Baum-Welch统计量，并且采用b的平方根作为MGPP特征，以应用巴氏概率乘积(Bhattacharyyaprobabilityproduct，BPP)核；

步骤23)，PPP特征的提取方法：在提取PPP特征时，采用语音的音素状态而不是MFCC训练出来的高斯为特征来计算后验概率，同样采用22)中的公式(3)，(4)来提取PPP特征；

步骤24)，基于音素持续时间的特征的提取方法：本发明定义了7种基于音素持续时间的特征及相关计算方法，

特征A)，语音的音素倒数率(ReciROS)：为单位时间内语音所包含音素个数的倒数；

特征B)，暂停音素的平均持续时间(AvgPauDur)：为语音中暂停音素(比如静音)平均的持续时间；

特征C)，有效音素持续时间比(VoiPhoDurRatio)：为有效音素(除去了暂停音素)持续时间总和与所有音素持续时间总和的比值；

特征D)，有效音素数目比(VoiPhoNumRatio)：为有效音素(除去暂停音素)个数与所有音素个数的比值；

特征E)，音素持续时间本土差异(PhoDurNatDiff)：为本土发音音素持续时间与观测音素持续时间的差值；

特征F)，音素持续时间非本土差异(PhoDurNonDiff)：为非本土发音音素持续时间与观测音素持续时间的差值；

特征G)，音素频率信息(PhoFreq)：一段语音中的音素频率(不存在的因素的频率为零)

特征A)ReciROS实际上是平均音素持续时间，它是此类特征中最为基础的特征，表示了说话者语速的快慢；特征B)到特征D)从不同方面体现了说话者说话时的犹豫程度；特征E)和F)直接对比观测音素序列与相应的本土发音音素序列和非本土发音音素序列的差异；由于非本土语音的学习者偏好于携带其母语的音律和发音规则，它们通常倾向频繁的发出某些特定的音素频率，最后一个特征用来捕捉此类相关信息。

进一步的，所述步骤22)中，GMM-UBM的模型训练采用本土语音和非本土语音一起训练，以使得以此模型计算出的后验概率可以表示本土和非本土发音的不同分布。

进一步的，所述步骤23)和步骤24)中，所采用的声学模型为多种语言(捷克语，匈牙利语，俄语，国语，英语等)的声学模型，而不仅仅是某一种外语(英语)的声学模型，以解决由于非本土说话人倾向于保持母语的发音习惯的问题，进一步提高评估的性能。

进一步的，所述步骤23)和步骤24)中，采用多种音素识别器包括多层感知机(MLP)音素识别器，HMM音素识别器，HMM与人工神经网络混合的音素识别器(HMM/ANN)，和长短时记忆神经网络(LSTM)音素识别器等来计算基于帧的音素后验概率和为基于音素持续时间的特征识别音素组件。

进一步的，所述步骤24)中，除了第一个基于音素持续时间的特征A)(ReciROS)外，其余的6个相关特征都通过ReciROS特征进行归一化，以去除说话速率对于评估的影响。

进一步的，在所述步骤4)中，融合PPP特征的得分和基于音素持续时间的特征的得分，以达到对于开发集和测试集最优的效果。属于得分层面的融合，以使得得分层的融合达到最优的效果，其中使用支持向量机。

进一步的，所述步骤4)中，

采用两层支持向量机来进行得分层面的融合，支持向量机采用线性核函数，其参数用交叉验证集来调优，其中第一层支持向量机对于每个子系统，根据特征分为MGPP子系统、PPP子系统和音素持续时间特征子系统，产生一个得分，第二层进一步利用这些分数作为输入产生一个最终的分数，分数融合模型的参数是用另一个不同的交叉验证集训练得到的。

以上介绍了本发明的语音评估步骤，通过这些方法，提取出了3种主要的特征，这些特征在传统的方法上进一步改进，尤其是基于音素延迟的特征，其中具体的定义及计算方法都是本发明提出的，语音提取出这些特征后，都可以用来判断口音；判断是根据得分来判断的。得分可以通过一层支持向量机得到。对某些得分融合可以得到更加科学的结果，举例说明，最简单的融合就是对不同的分数加权，比如有两个分数f1，f2，那f3＝0.3f1+0.7f2可能是一个更加科学的得分，不过本发明又通过一层支持向量机来对一些特征的得分进行得分层的融合。

与现有口音评估系统技术相比，本发明技术方案的有益效果是：

提出一种改善本地口音评估系统性能的语音特征，相较于基于传统的语音特征的口音评估系统，本发明的方法提高了语音持续时间短时评估的准确性，并解决了非本土说话者偏于保留其母语发音规则而导致的评估性能下降的问题。

除此之外，本发明改进和定义的新语音特征在本地口音评估系统中在开发集和测试集上达到了0.5706和0.6089的Spearman相关系数。

本发明的目的之一还在于提供一种网路教学方法，用于包括教师用户终端、学生用户终端、服务器和通信网络的网络教学系统，包括数据采集步骤、同步显示步骤、实时录制步骤、点播回放步骤和语音评估步骤。所述语音评估采用上述的语音评估方法。

所述数据采集步骤，用于采集网络教学过程中的图像数据、应用数据和/或音频数据，采集的这些数据可以用于同步显示步骤和实时录制步骤。

所述数据采集步骤包括：

—启动用户终端步骤，准备获取用于同步显示的数据以及教学过程中产生的音频数据；

—同屏显示数据获取步骤，获取用于图像同步显示的同屏显示图像数据；

—同屏应用数据获取步骤，获取用于同步显示的同屏应用操作数据，其包括对于屏幕上显示的电子文档的各种应用操作；

—音频数据获取步骤，获取教学过程中产生的用于同步传输和实时录制的音频数据；

—图像压缩步骤，采用JPEG格式压缩获取的所述同屏显示图像数据；

—图像发送判断步骤，判断经过所述图像压缩步骤压缩的相邻两幅所述同屏显示图像是否相同，根据判断结果确定是否发送所述图像；

—确定发送图像分割步骤，分割确定要发送的且文件大小超过UDP协议数据包的经过压缩的所述图像数据和音频数据，与符合协议大小要求的图像数据一起，形成待发送数据包。

其中，

这些数据来源包括用户终端上显示的图像、各种操作的应用数据、与所述用户终端连接的其他辅助显示或展示设备的图像、通过用户终端采集的或者通过与用户终端连接的音频采集设备采集的音频数据。所述的用户终端通常以教师用户终端为主，也可以从包括通过网络或其他方式获得的学生用户终端上的各种内容。

所述音频数据包括从第一音频源采集的第一音频数据流，以及从至少一个第二音频源采集的第二音频数据流；所述第一音频源为教学活动中的教师用户、在线会议的主讲人或者交互交流活动的主要发言人；所述第二音频源为教学活动中的学生用户、在线会议的其他讲话人或者交互交流活动的其他发言人。

所述同步显示步骤，用于将在网络教学过程中教师用户终端上显示的内容或者展示的内容，自动同步显示或者传送至学生用户终端上。

所述同步显示步骤包括：

—数据包发送步骤，基于UDP协议以组播模式向多个用户终端发送所述待发送数据包；

—线程监控步骤，用于在基于UDP协议传送时对线程进行实时监控，对丢包数据进行补发操作；

—过期数据处理步骤，用于丢弃所述网络教学系统中的过期数据，保证网络传输的畅通；

—同步再现步骤，用于在接收数据的所述学生用户终端上实现同步再现。

所述实时录制步骤，用于将所述获取的待发送数据流分别保存至数据库，使得用户可以点播回放教学过程。

所述实时录制步骤包括：

—系统生成文件标识ID；

—系统生成时间戳标识；

—将文件标识ID和时间戳标识Timestamp分别与以上所述数据流以及所述电子文档结合绑定，并按照设定格式分别保存至数据库。

其中，所述数据库为本地服务器Server数据库或者网络服务器Server数据库，

当数据流保存至本地服务器Server数据库时，可以再由本地服务器Server上传至网络服务器Server。

所述数据流传输时通过Socket通信接口进行，并且对所述数据流进行SSL加密处理。这样的数据流传输包括数据流保存时的传输和用户点播时由服务器向用户终端的传输。

进一步的，

在保存数据流时，将至少一种所述数据流分割成片段，每个数据流片段的标识ID由所述文件标识ID和随机分配的片段编码组成；

建立所述数据流片段标识ID与所述时间戳的映射关系表，用于根据所述映射关系表顺序组合所述数据流片段，实现数据流的正常播放。

所述点播回放步骤用于根据用户的请求，将录制的数据传送给用户终端并且在用户终端上组合再现教学过程。

所述点播回放步骤包括：

—用户终端通过网络分别获取这些数据流，利用安装在所述用户终端上的客户端根据时间标识Timestamp播放录制的内容。

具体的，

在执行首次播放请求时，服务器根据映射关系表的时间顺序，向用户终端传送数据流片段，用户终端顺序组合这些片段即可进行播放，不将所述映射关系表发送给用户终端；

在执行播放请求时，根据需要播放的录制文件的文件标识ID，检查是否使用了电子文档，如果使用了电子文档，首先在用户终端的本地缓存中查找是否已经下载了所述电子文档，如果有，则无需下载，如果没有，先通过网络将所述电子文档下载到用户终端。

所述网络用户的播放请求是通过Socket加密信道发送给系统服务器Server，系统服务器Server再根据文件标识ID获取所述数据流。

当数据流分割成片段而需要映射关系表才能播放录制文件时，如果网络用户终端的本地缓存中已经保存了所述数据流时，只需要下载所述映射关系表，即可实现复原播放。

映射关系表可以设置有效时间，比如24小时，或48小时，或者任何适当的合法授权时间，映射关系表下载到终端后，网络教学系统的计时模块开始计时，时间终止时映射关系表自动失效，删除或粉碎映射关系表数据。

对于所述数据采集步骤，其中，

所述同屏应用数据包括从多媒体白板上获取的动作数据。

所述多媒体白板包括在其上可以书写内容并可以输出所述书写动作数据的电子白板、触屏输入装置或手写输入装置。所述动作数据包括在所述多媒体白板上进行书写操作时书写内容的坐标位置数据。

还可以获取所述多媒体白板的屏幕显示的坐标系参数数据，并保存至所述数据库，用于在用户终端的屏幕上重现多媒体白板上的显示内容时使用。

对于子步骤中的所述电子文档，包括WPS文档、WORD文档、PPT文档、EXCEL文档、PDF文档、TXT文档或图片文档；

所述应用操作包括所述电子文档的打开、关闭、翻页、前进、后退、以及使用者在所述电子文档上的标注动作的位置信息。

所述同屏显示数据包括教师用户终端的屏幕上显示的内容、以及电子白板、投影输入装置、手写输入装置、黑板或白板及图像采集装置包括照相机和摄像机采集的图像数据；

所述采集的图像数据是BMP格式的，或者需要转换成BMP格式。

通过教师用户终端上的客户端或者APP记录传送指令及坐标点数据，包括Path路径坐标数据的方式获得需要的同屏应用数据。

所述Path路径坐标数据的记录过程如下：

A1、解析记录的Path路径坐标数据，并存放至临时的指令坐标堆栈中，然后对屏幕进行初始布局，在屏幕的Canvas画布上先设置背景图案；

A2、新建一个Bitmap，并以此Bitmap生成一个临时画布temptCanvas；

A3、将tempBitmap背景设置为透明，这样做的目的是把临时画布temptCanvas的目标，定位在新建的tempBitmap上；

A4、通过所述构造后，提取指令堆栈中的坐标指令，一一还原，通过temptCanvas进行从写，temptCanvas的一切draw函数，都会把相应的图像画在临时的tempBitmap上，这样在动作回溯的过程中，画点，画线调用temptCanvas而不是原先屏幕上的Canvas，包括temptCanvas.drawPoint,temptCanvasRect；

A5、所有的指令坐标堆栈执行完毕后，执行Canvas.drawBitmap(tempBitmap,0,0,null)；temptCanvas负责的是将各种画笔痕迹画在tempBitmap上，而Canvas负责将tempBitmap绘制到屏幕上。

在执行子步骤的所述图像压缩步骤前，进一步包括原始图像数据备份步骤，用于将未压缩的所述图像数据进行备份，形成原始图像备份数据库，当用户终端收到压缩的图像时，如果需要查看更精细的图像时，可以通过点击操作从所述原始图像备份数据库中下载获取原始图像。

进一步的，在执行完所述图像发送判断步骤后，将确定不同步显示给学生用户终端的压缩图像的原始备份数据从所述原始数据库中删除。

所述图像压缩步骤进一步包括，JPEG图像一次压缩和图像二次压缩。

在所述JPEG图像一次压缩过程中，在对所述图像进行压缩处理时，将每幅所述图像的DC特征值和AC特征值复制另存为独立的数据文件；

根据所述复制另存的数据文件，依次计算前后两幅相邻图像的所述DC和AC特征值的差异值，即DC和AC特征向量各分量之差的总和，差异值越大说明前后两幅图像的差别越大，差异值越小或者没有差异说明前后两幅图像的差别越小或者没有差别，判断为这幅图像无需传送到学生用户终端进行同步显示。

所述特征值的差异值的计算方法为：

将前后相邻两幅图像的DC和AC特征值进行对比，

对于DC特征值，对比其分量的正负号，如果分量同号标记为1，否则标记为0；

对于AC特征值，根据设定的对比阈值，如果分量之差超过对比阈值标记为0，否则标记为1；

由此，求出0或1的数目，相加求和，可以得出前后相邻两幅图像之间的差异值；其中，

0的数目越多表明特征向量的差异越大，图像的差异越大。

设置多个存储复制另存的DC和AC特征值存储文件，存储满一个文件夹，就使用另一个存储文件，之后系统清空所述存储满的文件夹备用。

当长时间检测到前后截屏的内容没有变化时，逐步自动延长截取屏幕图像内容的时间。

当检测到差异值保持在一定范围内基本平稳时，将当前屏幕的内容作为第一版板书内容进行标记；

当检测到差异值出现较大变化时，判断为新的一个版面的板书或新的显示内容开始。

对于所述图像二次压缩步骤，根据图像大小与结合系统指定的文件字节数的{最小值、最大值}：{minSize,maxSize}，设置进一步的压缩比率：

If(image.getBytes()>maxSize)

{压缩比率＝image.getBytes()/maxSize*系统定义偏移量}

Else,

{压缩比率＝1}；

根据由压缩图像构成的图像的大小与指定的文件字节数的{minSize,maxSize}获得图像压缩比率：

如果图像的大小大于最大值，

压缩比率＝图像大小/最大值*系统定义偏移量，否则，压缩比率＝1；其中，

所述偏移量设置为0.4～0.6之间。

所述压缩获得的JPEG图像以及同屏应用数据包大于报文的限制长度时，会按照报文等比，将所述JPEG图像以及同屏应用数据包分割成若干子数据包，即

分割成若干临时TMP文件，这些分割的临时TMP文件通过网络以组播方式进行传送，学生用户终端获得所有的分割TMP文件后，对分割TMP文件进行合并，形成完整的JPEG图像，并在学生用户终端本地显示。

根据数据长度，动态计算并拆分数据，并且最大的拆分数量不超过5个这样两组条件进行综合计算，从而得到一个较优的报文数组进行发送。

对于所述同步显示步骤，其中，

所述学生用户终端的客户端在收到了来自教师用户终端的组播数据包时，会先校验收到的数据是否已经接受完全，如果接受完全会将数据报文进行合并还原；

在每收到一个数据报文的同时，立刻给教师用户终端发送反馈信息；

学生用户终端接收到指令信息后，会向教师用户终端发送反馈信息。

对于子步骤的所述线程监控步骤，具体包括：

线程监控步骤B1、数据报文发送处理步骤：

教师用户终端对发送的数据报文进行签名编号，确保每次发送的报文组ID统一并且唯一，然后将数据报文发送至无线AP的组播地址，范围在234.5.*.*组播网段间固定组播地址，教师用户终端在启动程序时会自动计算组播地址，确保在一个网络环境内特别是局域网络环境内，每个课堂都独立占用为一个组播地址；

B2、自守护线程启动步骤：

在数据报文发送后，教师用户终端会启动一个自守护线程，启动计时器，并建立补发堆栈，将本次的发送数据、发送目标存入补发堆栈，在到达自守护线程启动时间后，没有收到学生用户终端的数据报文反馈，自守护线程会启动数据报文补发处理，对没有反馈的学生用户终端补充发送数据包；

B3、反馈守护线程启动步骤：

教师用户终端发送完组播UDP数据包后，当第一次收到学生用户终端的反馈消息后，会自动启动反馈守护线程，该线程会按照拆分后的数据包对用户终端的反馈进行保证重传处理，同时停止自守护线程；

B4、报文反馈步骤：

学生用户终端的客户端在收到了来自教师用户终端的组播数据包时，会先校验收到的数据是否已经接受完全，如果接受完全会将数据报文进行合并还原；在每收到一个数据报文的同时，立刻给教师用户终端发送反馈信息。

所述过期数据处理步骤具体过程如下：

C1、教师用户终端上传组播报文到服务器，服务器通过网络传输把组播报文给学生用户终端；

C2、学生用户终端收到的组播报文时，如果报文签名为当前正在处理的报文组，则将报文信息入栈，并反馈信息发送给教师用户终端；

C3、如果学生用户终端收到的组播报文签名比当前栈中处理的数据新，则表明栈中的数据已经过期，会将栈中数据清空，同时将新数据入栈，等待报文数据接收完全后进行后续处理；

C4、如果学生用户终端收到的组播报文签名比当前栈中处理的数据旧，则表明该收到的数据报文已经过期，系统放弃当前接收到的数据报文；

C5、教师用户终端收到学生用户终端的数据报文反馈信息，如果报文时间戳已经过期，表明学生用户终端延迟收到消息，数据已过期，教师用户终端对该数据报文进行丢弃，不进行其它任何处理，如果收到的数据报文时间戳为当前发送数据包，则对该反馈信息进行接收。

对于子步骤中的所述同步再现步骤，其中，

在学生用户终端上的客户端或APP中，内置有图像子数据包合并显示模块，用于将接收到的若干子数据包如若干临时TMP文件，合并形成完整的JPEG图像，并在学生用户终端上进行显示，完成同屏显示的目的；以及，

内置有与教师用户终端同样的文件操作逻辑模块，在同屏应用过程中，学生用户终端事前加载本次课堂的电子文件资源，教师在讲课直播过程中，学生用户终端将通过服务器获得的教师操作电子文档/文件的操作指令数据如指令及坐标点数据，利用已经内置的逻辑模块结合下载的课堂电子文件资源，通过所述逻辑模块自动模拟教师的操作，完成同屏应用的目的。

学生用户终端将实时接收到的图像进行本地显示，并将一系列接收到的同步图像数据保存成可再现的视频流；

将所述视频流的播放与有关教师的音频数据流根据时间特征匹配起来，形成带有音频的视频流。

根据本发明的又一目的，提供一种网络教学系统，包括处理器；以及计算机可读存储介质，具有由所述处理器执行用于执行操作的计算机可读程序代码，所述操作为上述的网络教学方法的有关操作，用于将所述多个用户终端之一的屏幕上显示的图像内容发送到其他所述终端上实现同步显示。

根据本发明的再一目的，提供一种计算机程序，包括被加载至计算机系统并被执行时执行上述所述方法的步骤的计算机程序代码。

根据本发明的另一目的，提供一种计算机可读存储介质，包含上述计算机程序。

使用本发明的网络教学方法和系统，由于系统定时截取屏幕内容并进行压缩处理，具备了随时可以进行传送的能力，提高了传送的效果，缩短了传送的时间。利用图像压缩过程中解析获得的特征值实现了截屏图像内容的快速比对，实现了同步图像的智能判断，自动同步传送，无需手动操作，而且由于尽量避免了传送重复的屏幕内容，减轻了学生用户终端存储的压力，又能保证内容的全面性，此外由于对屏幕图像内容进行了标记和判断，有助于提高学生复习的效率，比如在复习时，可以直接看每一板书的最后几个版面，一般就是比较全面的板书内容，无需一一浏览前面的过程板书图像，提高了复习效率，而如果想看讲解的过程和进度，又不会错过有关内容。而讲解画面、音频实时同步录制，录制数据上传带宽仅5-10kB/s即可满足需要，所有数据存储至数据库中，更加安全和便捷，整个课程以数据流形式存储至数据库，存储空间缩小百倍，点播回放要求带宽低，一般的网络可实现流畅网络点播回放。

本发明的网络教学系统摆脱了由固定课室、讲台、教案、课本、黑板、粉笔等组成的传统教学系统及方式，实现现代化的互联网互动式的教学方式，摆脱了时空的限制，通过数据库储存电子课本，实现减轻了携带沉重的教材课本的负担，提高了教学效率，互动性和趣味性。

同屏教学使得学生在课堂上能随时精准的看到教师对于重点知识的标注，教师也可以在讲解的过程中对教案随时进行标注，让每个学生在自己的教学设备上看到教师的批注，更清楚的了解相关的知识点。免去了之前学生在课堂上跟不上教师的教学速度，跟不上教师的讲解的问题。

本发明的核心在于，在现有技术的基础上，以有机的系统化的方式解决了网络教学系统中显示图像和应用图像数据同步显示、实时录制和语音评估的问题，在有些技术的使用上，有些现有技术中可能有独立的应用，但是没有任何启示或公开将这些技术有机结合起来系统化的并进行改进的创造性应用，而且取得了本发明的意想不到的技术效果。

本发明的上述和进一步的目的以及特征，根据结合附图的以下详细说明就会更加清楚和完整。

附图说明

图1-5是现有技术的示意图；

图6是根据本发明的网络教学系统的拓部结构示意图。

图7是根据本发明的网络教学系统的智能终端结构示意图。

图8是根据本发明的网络教学方法的同步显示图像数据的处理流程示意图。

图9-1至9-3是根据本发明的网络教学方法中获取路径坐标数据的过程示意图。

图10是根据本发明的图像压缩过程的亮度量化表和色度量化表。

图11是根据本发明的图像压缩过程中经Z字形扫描后DCT特征值的序号。

图12是根据本发明的网络教学系统的组播发送示意图。

图13是根据本发明的网络教学系统的线程监控示意图。

图14是根据本发明的网络教学系统的同步再现示意图。

图15是根据本发明的网络教学系统的数据包发送确认示意图。

图16是根据本发明的网络教学系统的同步再现示意图。

图17和18是根据本发明的网络教学系统获取路径坐标数据的示意图。

图19是根据本发明的网络教学系统的数据流片段分割示意图。

图20是根据本发明的网络教学系统的点播回放的示意图。

图21是根据本发明的网络教学系统的点播回放的另一示意图。

图22为根据本发明的语音评估方法的流程图；和

图23为基于英语的特征与基于5种语言的特征的性能的对比直方图。

具体实施方式

以下结合附图，将对本发明的具体实施方式进行详细的描述。

本发明的网络教学并不局限于学生和教师的教学形式，其可以包括以教师用户和学生用户、或培训用户为参与主体的在线网络教学、远程网络教学、本地网络教学，和以企、事业单位员工等为参与主体的在线网络会议、远程网络会议、本地网络会议，以及其他的利用网络进行在线交流和/或文件内容展示的交流/交互形式，比如远程协同工作等。

如图6所示，根据本发明的网络教学系统的拓扑结构示意图。所述网络教学系统，包括：多个教师用户终端、多个学生用户终端以及云数据中心(智联教育云端服务器)，它们之间通过网络(互联网、交换机、校园服务器、校园AC、班级AP、或者VLAN专线)相互进行连接。此外，所述网络教学系统还可以包括各种放映设备如投影仪、展示设备如电子白板、图像采集设备如照相机、录像机或与用户终端相连的摄像头等。

使用本发明的网络教学系统，教师在上课时从教学终端和教学多媒体课堂分别获取讲课时间和动作数据流以及课堂时间和语言数据流，通过校园局域网与互联网相连，智联教育云端服务器通过互联网获取和处理这些数据，并且将其通过互联网和校园局域网分发给学生端，用于为学生听课提供服务。此外，通过所述网络教学系统的语音评估方法和评估模块，可以为用户在涉及口语学习或评估时提供口语评估服务。

所述服务器可以是本地服务器和/或部署在远程主机上的远程服务器或网络云端的云端服务器。所述网络教学系统的软件客户端或APP在所述用户终端(包括教师用户终端和学生用户终端，还可以包括家长用户终端)上运行。

所述网络可以为互联网，可以是局域网(如校园网)和广域互联网，可以是有线的，也可以是无线的，或者这些网络的任意组合。

所述用户终端包括：处理器、网络模块、控制模块和显示模块以及智能操作系统。所述用户终端上可以设有通过数据总线连接各种拓展类设备和配件的多种数据接口。所述智能操作系统包括Windows、Android及其改进、iOS等系统，在其上可以安装、运行应用软件，实现在智能操作系统下的各种应用软件、服务和应用程序商店/平台的功能。

所述用户终端可以使用满足相应性能要求的用户个人的各种移动可接入设备，如平板电脑、智能手机、笔记本电脑等，只要这些设备安装有基于本发明的方法或装置的应用软件客户端或者APP即可。也可以使用专门定制的10.1英寸的Android平板电脑。所述用户终端需要使用登陆账号进入系统的客户端或者APP。

所述用户终端可以包括教师用户终端、学生用户终端以及家长用户终端等，不同用户使用不同身份登陆相应的用户终端的客户端或者APP，设备进入相对应的系统界面，实现相应的功能。

所述用户终端可以通过自身的网络模块以RJ45/Wi-Fi/蓝牙/2G/3G/4G/5G/G.hn/Zigbee/Z-ware/RFID等网络连接方式连接到互联网，并借助互联网连接到服务器、其它的用户终端或其它电脑及设备。所述用户终端还具有1394/USB/串行/SATA/SCSI/PCI-E/Thunderbolt/数据卡接口，以及HDMI/YpbPr/SPDIF/AV/DVI/VGA/TRS/SCART/Displayport等音视频接口。所述用户终端通过上述各种功能接口使用网络彼此连接，以及连接各种拓展设备和配件，由此可以组成网络教学系统的基础。

所述用户终端还可以带有软件形式的声音捕捉控制模块和动作捕捉控制模块，或通过数据总线板载硬件形式的声音捕捉控制模块和动作捕捉控制模块，来实现声控和形控功能；通过音视频接口连接显示/投影模块、麦克风、音响设备和其它音视频设备，来实现显示、投影、声音接入、音视频播放，以及数字或模拟的音视频输入和输出功能；通过数据接口连接摄像头、麦克风、电子白板、RFID读取设备，实现影像接入、声音接入、电子白板的使用控制和录屏，RFID读取功能，并通过相应的接口可接入和管控移动存储设备、数字设备和其它设备；通过DLNA/IGRS技术和互联网络技术，来实现的包括多屏设备之间的操控、互动和甩屏等功能。

本发明中，所述处理器定义为包括但不限于：指令执行系统，如基于计算机/处理器的系统、专用集成电路(ASIC)、计算设备、或能够从非暂时性存储介质或非暂时性计算机可读存储介质取得或获取逻辑并执行非暂时性存储介质或非暂时性计算机可读存储介质中包含的指令的硬件和/或软件系统。所述处理器还可以包括任意控制器，状态机，微处理器，基于互联网络的实体、服务或特征，或它们的任意其它模拟的、数字的和/或机械的实现方式。

本发明中，计算机可读存储介质定义为包括但不限于：能够包含、存储或保持程序、信息及数据的任意介质。计算机可读存储介质包括许多物理介质中的任一种，如电子介质、磁性介质、光介质、电磁介质或半导体介质。合适计算机可读存储介质以及用户终端和服务器使用的存储器的更具体示例包括但不限于：磁性计算机盘(如软盘或硬驱)、磁带、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、光盘(CD)或数字视频光盘(DVD)、蓝光存储盘、固态硬盘(SSD)、闪存。

作为典型的用户终端，可以采用中国专利CN104363545B公开的智能终端机。如7图所示，所述智能终端机，包括：内设有音频降噪电路的主机(1)及与该主机(1)连接的高拍仪；其中，

所述主机(1)包括底壳(11)和中框(14)，底壳(11)和中框(14)之间固定安装有主板(12)、液晶屏(13)和触控屏(15)，所述主板(12)和液晶屏(13)通过FPC连接器(122)电性连接；所述底壳(11)后端设置有开口槽(111)，中框(14)后端设置有容置槽(2)，该容置槽(2)对应位于所述开口槽(111)中，且所述开口槽(111)中还设置有可翻转打开的翻转盖板(3)，所述翻转盖板(3)翻转后可与容置槽(2)对应形成密封腔；

所述高拍仪，设置于上述容置槽(2)中，其包括有主支架(4)、副支架(5)和拍照杆(6)，所述主支架(4)一端通过转轴件(41)与固定安装在容置槽(2)中的连接件(42)转动连接，另一端则通过第一垂直转轴(54)与副支架(5)一端活动连接，所述副支架(5)可绕第一垂直转轴(54)垂直于主支架(4)打开或合拢；所述副支架(5)的另一端通过水平转轴(65)和第二垂直转轴(64)与拍照杆(6)活动连接，所述拍照杆(6)可绕第二垂直转轴(64)垂直于副支架(5)打开或合拢，且在拍照杆(6)处于打开状态时绕水平转轴(65)在水平方向翻转；

所述主板(12)上设置有电池(121)、3G模块、SIM卡槽和包含音频降噪电路的主板电路，所述3G模块和SIM卡槽通过主板电路与电池(121)连接；

所述副支架(5)包括副支架上盖(51)、副支架下盖(52)以及安装在副支架上盖(51)、副支架下盖(52)之间的线路板(53)，该线路板(53)通过设置于主支架(4)内的线路与主板(12)电性连接；

所述拍照杆(6)包括拍照杆上盖(61)、拍照杆下盖(62)以及安装在拍照杆上盖(61)、拍照杆下盖(62)之间的摄像模块(63)和麦克风，所述摄像模块(63)与所述线路板(53)电性连接，且所述摄像模块(63)上设置有摄像头(631)；

所述主板(12)上还设置有用于插IC卡的IC卡插槽(124)和用于读取磁卡磁条信息的磁卡磁头(123)，所述IC卡插槽(124)和磁卡磁头(123)均与主板电路连接；

所述底壳(11)后端还设置有插孔(112)，该插孔(112)中固定有电磁笔(7)；

所述底壳(11)后端底部设置有后支撑垫(114)，前端底部设置有前支撑垫(113)。

本发明的网路教学方法，用于包括教师用户终端、学生用户终端、服务器和通信网络的网络教学系统，包括以下主要步骤：数据采集步骤、同步显示步骤、实时录制步骤、点播回放步骤和语音评估步骤。

所述数据采集步骤，用于采集网络教学系统中教学过程中的图像数据、应用数据和/或音频数据，采集的这些数据可以用于同步显示步骤和实时录制步骤。这些数据来源包括用户终端上显示的图像、各种操作的应用数据、与所述用户终端连接的其他辅助显示或展示设备的图像、通过用户终端采集的或者通过与用户终端连接的音频采集设备采集的音频数据。所述的用户终端通常以教师用户终端为主，也可以从包括通过网络或其他方式获得的学生用户终端上的各种内容。

所述数据采集步骤包括：

—启动用户终端步骤，准备获取用于同步显示的数据以及教学过程中产生的音频数据；

—同屏显示数据获取步骤，获取用于图像同步显示的同屏显示图像数据；

—同屏应用数据获取步骤，获取用于同步显示的同屏应用操作数据，其包括对于屏幕上显示的电子文档的各种应用操作；

—音频数据获取步骤，获取教学过程中产生的用于同步传输、实时录制和/或语音评估的音频数据；

—图像压缩步骤，采用JPEG格式压缩获取的所述同屏显示图像数据；

—图像发送判断步骤，判断经过所述图像压缩步骤压缩的相邻两幅所述同屏显示图像是否相同，根据判断结果确定是否发送所述图像；

其中，

所述同步显示步骤，用于将在网络教学过程中教师用户终端上显示的内容或者展示的内容，自动同步显示或者传送至学生用户终端上。

所述同步显示步骤包括：

—数据包发送步骤，基于UDP协议以组播模式向多个用户终端发送所述待发送数据包；

—线程监控步骤，用于在基于UDP协议传送时对线程进行实时监控，对丢包数据进行补发操作；

—过期数据处理步骤，用于丢弃所述网络教学系统中的过期数据，保证网络传输的畅通；

—同步显示步骤，用于在接收数据的所述学生用户终端上实现同步显示。

所述实时录制步骤包括：

—系统生成文件标识ID；

—系统生成时间戳标识；

—将文件标识ID和时间戳标识Timestamp分别与以上所述数据流以及所述电子文档结合绑定，并按照设定格式分别保存至数据库。

所述点播回放步骤包括：

—用户终端通过网络分别获取这些数据流，利用安装在所述用户终端上的客户端根据时间标识Timestamp播放录制的内容。

在执行播放请求时，根据需要播放的录制文件的文件标识ID，检查是否使用了电子文档，如果使用了电子文档，首先在用户终端的本地缓存中查找是否已经下载了所述电子文档，如果有，则无需下载，如果没有，先通过网络将所述电子文档下载到用户终端，所述电子文档可是教师用户在最初使用时上传到服务器的，也可以是其他用户拷贝或采用其他方式下载或上传到服务器的。

所述网络用户的播放请求是通过Socket加密信道发送给系统服务器Server，系统服务器Server再根据文件标识ID获取所述数据流。

所述音频评估步骤包括，

当用户在涉及口语方面的学习或点播回放时，如果需要对用户的语音进行评估或者测试，可以通过以下步骤实现：

语音评估方法，包括以下步骤：

步骤1)，语音信号的采集，形成待评估音频数据，这些语音信号的采集与前述音频数据的采集可以采用相同的设备和方式；

步骤2)，语音特征序列的提取，提取所述音频数据的3种特征：梅尔倒谱多高斯后验概率MGPP特征、音素后验概率PPP特征和基于音素持续时间的语音特征；

步骤3)，特征序列层面上的融合：分别融合所述PPP特征和所述基于音素持续时间的语音特征，得到融合后的PPP特征和融合后的基于音素持续时间的特征；由于PPP特征和基于音素持续时间特征都是基于5种不同语言的音素上提取的，所以每个基于音素的特征都会产生5种不同的子特征，最后融合5种子特征，得到最终的PPP特征和基于音素持续时间的语音特征；

步骤4)，评分层面上的融合：采用两层支持向量回归SVR来进行评分层面的融合；

步骤5)，性能评估：采用Spearman系数来体现机器评估打分与人类评价打分相关性，以此表示特征对于自动本地口音评估的有效性。

图8是根据本发明的网络教学方法的同步显示图像数据的处理流程示意图。如图所示，示意性出了同步图像数据的画面抓取、图像压缩、压缩比率计算、图像拆分、待发送图像拆包处理、同步数据发送等基本步骤。

具体地，对于上述有关步骤：

启动教师用户终端步骤，用于准备获取用于同步显示的数据。本发明的网络教学方法是所述基于网络教学系统的，当教师用户终端的客户端激活进入工作状态后，系统启动图像同步显示、实时录制等程序。

所述同屏显示数据获取步骤，获取用于图像同步显示的同屏显示图像数据。

获取图像数据的渠道可以是多方面的，包括截屏图像、摄像或摄影装置获取的图像、扫描仪获取的图像等，图像上的内容包括教师书写的板书，可以是从电子白板上获得的截图或者拍摄图像，可以是从普通黑板上获得的拍摄图像，可以是通过手写板输入的并在屏幕上显示的截屏图像或者拍摄图像，可以是通过扫描仪输入的文字照片等的图像，还可以是教师用户终端上集成显示图像的截图图像等。

常用的图像格式包括JPEG、BMP、GIF、PNG、TIFF等，相对而言JPEG(JointPhotographicExpertsGroup，联合图像专家小组)和BMP(Bitmap)使用最广泛。

BMP是一种与硬件设备无关的图像文件格式，可以称之为与设备无关的位图，其采用映射存储格式，除了图像深度可选以外，不采用其他任何压缩，因此BMP文件占用的存储空间相对较大，属于Windows环境下的标准图像格式，但是其体积过大，不利于网络传送。

典型的BMP图像文件包括四部分：位图文件头数据结构，它包含BMP图像文件的类型、显示内容等信息，其结构长度通常是固定的14字节；位图信息数据结构，它包含有BMP图像的宽、高、压缩方法及定义颜色等信息，其结构长度通常是固定的40字节；调色板，这个部分是可选的；位图数据，这部分的内容根据BMP位图使用的位数不同而不同，在24位图中直接使用RGB。

BMP作为通用格式的位图，在此如果原始获得的图像不是BMP格式的，需要先将格式转换为BMP格式，然后再进行压缩处理，将BMP图像压缩成JPEG图像。

本发明的网络教学系统可以根据规则自动实时截取或者获得，如每隔几秒自动截取屏显内容或者拍摄需要同步显示的内容，或者教师根据自我判断和/或教学需要手动随机截取屏显内容或者拍摄有关内容，由此获得需要同步显示的BMP图像。

典型地，这些BMP图像的内容是教师用户终端上显示的内容，这些内容典型的是以各种形式获得的教师板书内容，比如可以是电子白板上的板书图像，可以是拍摄的普通白板上的板书内容。

根据本发明，获得截图的方式至少包括：

(a)通过重写Android系统的截图组件截取当前操作页面的截取得BMP图像；

(b)通过高拍仪，拍摄教师选定区域的场景，截取得BMP图像；

(c)通过电子白板笔书写的板书，通过指令控制，进行截取得BMP图像；

所述同屏应用数据获取步骤，获取用于同步显示的同屏应用操作指令数据。

对于可以不用直接同屏显示的数据，可以通过传送指令及坐标点数据的方式获得需要同步显示的同屏应用操作信息，然后通过操作再现实现图像同步显示。

具体地，对于教师用户终端描绘的板书等内容，通过教师用户在终端上的APP书写板书，把书写的板书的轨迹的路径坐标数据，学生用户终端获得这些路径坐标数据后，可以通过指令对坐标进行重新描绘，实现回显，而不必获取整个显示的图像信息。

关于指令萃取及机器学习：首先构建系统机器学习能力，字典表记录各种文件操作指令，并通过索引配对，指向操作指令对应的实际执行语言。具体地，针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。

这种方法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。

指令萃取剂机器学习让更多的有效的指令通过系统自动判断保存到数据库中，而把无效指令删除掉，使得上课过程更加完整，数据库存储的数据更为有效。

图9-1至9-3是根据本发明的网络教学方法中获取路径坐标数据的过程示意图。

如图所示，路径坐标数据获取时，可以使用以下步骤：屏幕步距初始化，申请创建一个临时画板，解析path路径坐标数据，判断是否是画笔，如果是，回放画笔动作，如果不是，取得下一个指令，完成所述回放画笔动作后，判断是否有后续指令，如果有，继续取得下一个指令，如果没有，完成回放，在终端设备显示结果。具体地，

所述Path路径坐标数据的记录过程如下：

A1、解析记录的Path路径坐标数据，并存放至临时的指令坐标堆栈中，然后对屏幕进行初始布局，在屏幕的Canvas画布上先设置背景图案；

优先判断是否是画笔(可能是橡皮擦)，如果是画笔，将当前的轨迹路径保存到轨迹结果集合中。

//如果是画笔，将当前的记录路径保存到list

this.mPathPaintlist.add(this.mPathPaint)；

//保存画笔和路径履历

PathAndPaintpap＝newPathAndPaint()；

pap.setPath(newPath(this.mPath))；

pap.setPaint(newPaint(this.mPaint))；

this.mPathAndPaintlist.add(pap)；

A2、新建一个Bitmap，并以此Bitmap生成一个临时画布temptCanvas；

A3、将tempBitmap背景设置为透明，这样做的目的是把临时画布temptCanvas的目标，定位在新建的tempBitmap上；

A4、通过所述构造后，提取指令堆栈中的坐标指令，一一还原，通过temptCanvas进行重写，temptCanvas的一切draw函数，都会把相应的图像画在临时的tempBitmap上，这样在动作回溯的过程中，画点，画线调用temptCanvas而不是原先屏幕上的Canvas，如temptCanvas.drawPoint,temptCanvasRect等等；

所述动作描绘的逻辑步骤如下所示，其中touchMove函数传入的(floatx,floaty)参数分别为横纵轴坐标：

通过通过连续传入的两个坐标点的中间位置，设置为贝塞尔曲线的基准点，再利用贝塞尔算法进行平滑处理，把多个点描绘成一条平滑曲线；将最后的的坐标点，作为后续的操作基准点的起点，将路径保存path集合中。

所述动作描绘的逻辑步骤如下所示，其中touchMove函数传入的(floatx,floaty)参数分别为横纵轴坐标：

所述图像压缩步骤，采用JPEG格式压缩获取的所述同屏显示图像数据，具体包括图像一次压缩步骤和图像二次压缩步骤。具体地，

1、图像一次压缩

由于组播转单播中每次发送的数据报文有最大长度限制，因此需要先将图像解码转换成JPEG格式的图像，在转换时根据图像大小，动态计算压缩比率，进行图像的一次压缩。

通常，图像压缩包括差分脉冲编码DPCM、DCT、矢量量化编码VQ等技术。目前，基于DCT等技术的国际图像压缩标准，包括JPEG、MPEG、H261等。

在现有DCT技术的基础上，经进一步改进，本发明的图像压缩可以用于缩小传送的视频流、封装有多个图像的图像文件或者图像文件的大小。

所述图像一次压缩步骤包括：

(0)原始图像备份步骤。

在执行压缩图像操作前，将未压缩的所述图像进行备份，形成原始图像备份数据库，所述原始图像备份数据库中的图像通过文件编码与其相应的压缩图像一一对应。当用户收到压缩的图像而需要查看更精细的原始图像时，可以点击操作通过网络，从原始图像备份数据库中下载相应的原始图像。

进一步的，还可以包括原始图像剔除步骤。在执行完以下所述的后续图像发送判断步骤后，将确定不同步显示给学生用户终端的压缩图像的原始备份数据从所述原始图像备份数据库中删除。

(1)正向离散余弦变换(FDCT)

对于待压缩的图像首先进行FDCT变换。RGB色彩系统是最常用的表示颜色的方式，BMP位图采用的就是RGB色彩系统，R、G、B三个分量分别表示红绿蓝三种基色。而将要变换的JPEG是采用的YC_bC_r色彩系统，Y、C_b和C_r三个图像分量分别表示亮度、色度和饱和度。在处理全彩色图像时，需要首先把RGB颜色模式图像数据转化为YC_bC_r颜色模式数据。

离散余弦变换(DCT)是将一组光强数据转化为频率数据，以获取强度变换情况，其属于无损变换。DCT变换将图像中各个频率的信息区分开来，再将对视觉敏感的高频部分信息保留下来，而对视频无法觉察的低频部分在数值上设为零，从而达到对图像压缩的目的。通过DCT变换，可以把能量集中在少数几个特征值上，通常为DC特征值和AC特征值。

在进行DCT变换时，先将图像分解成N×N像素块(或称子图像块)，优选的N＝4、8或16，最优选的是，N＝8，对每一子图像块进行单独的二维DCT变换。本发明中优选采用8×8的分解方式，当原始图像的长度不是8的倍数时，需要先补为8的倍数。由此，其64个像素的二维空间频率分量的幅值称为DCT特征值，也就是每个子图像块可以用1个DC特征值和63个AC特征值表示。

对于采用像素矩阵(方阵)表示的数字图像，二维DCT正变换使用下列公式：

$> F (u, v) = \frac{1}{\sqrt{2 N}} c (u) c (v) Σ_{x = 0}^{N - 1} Σ_{y = 0}^{N - 1} f (x, y) c o s (\frac{2 x + 1}{2 N} u π) c o s (\frac{2 y + 1}{2 N} v π)$ >

$> F (u, v) = \frac{1}{4} c (u) c (v) Σ_{x = 0}^{7} Σ_{y = 0}^{7} f (x, y) c o s (\frac{2 x + 1}{16} u π) c o s (\frac{2 y + 1}{16} v π)$ >

二维DCT的逆变换(IDCT变换)使用下列公式：

$> f (x, y) = \frac{1}{\sqrt{2 N}} Σ_{u = 0}^{N - 1} Σ_{v = 0}^{N - 1} c (u) c (v) F (u, v) c o s (\frac{2 x + 1}{2 N} u π) c o s (\frac{2 y + 1}{2 N} v π)$ >

$> f (x, y) = \frac{1}{4} Σ_{u = 0}^{7} Σ_{v = 0}^{7} c (u) c (v) F (u, v) c o s (\frac{2 x + 1}{16} u π) c o s (\frac{2 y + 1}{16} v π)$ >

在上面两式中，

u,v是DCT变换后矩阵内某个数值的坐标位置，即频率域采样值，u＝0,1,….N-1，v＝0,1,…N-1；

F(u,v)是DCT变换后矩阵内(u,v)位置上的频率特征值；

(x,y)是图像数据中某个数值的坐标位置，即空间域采样值，x＝0,1,…,N-1，y＝0,1,…,N-1；

f(x,y)是图像数据内(x,y)位置上的像素值；

当u＝0且v＝0时， $> c (u), c (v) = \frac{1}{\sqrt{2}};$ >

当u>0或v>0时，c(u),c(v)＝1。

经过DCT变换后的矩阵数据自然数为频率特征值，这些特征值以F(0,0)的值最大，即DC特征值，其余的63个频率特征值多是接近于0的正负浮点数，统称AC特征值。

二维DCT变换是可以分离的，即二维变换可以分解为串联的两次一维变换，这是因为一维DCT的变换速度效率优于二维DCT变换，因此通过分离计算可以提升运算处理的效率，由此对于所述正向变换公式，可以改写成：

$> F (x, y) = \sqrt{\frac{2}{N}} c (v) Σ_{y = 0}^{N - 1} [\sqrt{\frac{2}{N}} c (u) Σ_{x = 0}^{N - 1} f (x, y) c o s (\frac{2 x + 1}{2 N} u π)] c o s (\frac{2 y + 1}{2 N} π)$ >

即先沿图像的每一列进行一维DCT变换，得到

$> f (u, y) = \sqrt{\frac{2}{N}} c (u) Σ_{x = 0}^{N - 1} f (x, y) c o s (\frac{2 y + 1}{2 N} v π);$ >

再沿f(u,y)的每一行进行第二次一维DCT变换，得到

$> F (u, v) = \sqrt{\frac{2}{N}} c (v) Σ_{y = 0}^{N - 1} f (u, y) c o s (\frac{2 v + 1}{2 N} v π) .$ >

这样二维DCT变换可以利用一维DCT变换快速进行运算。

(2)量化(Quantization)

对于经过FDCT变换的图像，进行量化处理。量化是在保持一定图像质量的情况下，去除图像中对视觉效果影响不大的冗余信息，针对经过FDCT变换后的频率特征值，其目的是减小非“0”特征值的幅度以及增加“0”值特征值的数量。量化处理是图像质量下降的最主要原因。

对于JPEG有损压缩，使用线性均匀量化器进行量化，具体地，对于64个DCT特征值除以量化步距并四舍五入取整来实现。量化步距是按照特征值所在的位置和每种颜色分量的色调值来确定。因为人眼对亮度信号比对色差信号更敏感，因此使用了两种量化表：亮度量化值和色度量化值。此外，由于人眼对低频分量的图像比对高频分量的图像更敏感，因此图中的左上角的量化步距要比右下角的量化步距小。

如图10所示，其中的亮度量化表和色度量化表的数值对于CCIR601标准电视图像是最佳的。如果不使用这两种表，也可以根据需要使用其他的量化表替换它们。如果每一子图像块都采用相同的量化表，会减少计算量，但是由于不同子图像块的情况不同，可能不能达到最佳的压缩效果。

(3)Z字形编码(ZigzagScan)

对于经过量化处理的图像，进行编码处理。量化AC特征值通常有许多零值，需要以Z字路径重新编排，目的是为了增加连续“0”特征值的个数，也就是“0”的行程长度。这样就把一个8×8的矩阵变成一个1×64的矢量，频率较低的特征值放在矢量的顶部。

如图11所示，经Z字形扫描后DCT特征值的序号。0表示零频DC特征值，而剩下的1-63为AC特征值，特征值越大表示所述位置所对应的频率成分的频率越高，后续的量化编码就是在这些特征值的基础上进行的。

(4)DPCM编码处理

对于经过Z字形编码处理的图像，使用差分脉冲编码调制(DifferentialPulseCodeModulation，DPCM)对量化DC特征值进行编码。

在进行Z字形编码以后，量化DC特征值有两个特点，一是特征值的数值比较大，二是相邻8×8图像块的DC特征值变化不大。根据这个特点，使用DPCM技术，对相邻图像块之间的量化后的DC特征值的差值(Delta)进行编码：Delta＝DC(0,0)_k-DC(0,0)_k-1。

(5)RLE编码处理

对于经过Z字形编码处理的图像，使用行程长度编码(RunLengthEncoding，RLE)对量化AC特征值进行编码。

RLE是一种典型的无损压缩技术。当图像中有很多相同颜色的模块时，模块中的每一行显示的颜色都相同，这种图像一般不提倡进行每一像素颜色值的存储，而只是单纯存储相同颜色的像素数量和颜色值即可。例如，表示颜色像素值的字符串RRRRRGGGBBBBB，用RLE压缩后可用5R3G5B代替。

在进行Z字形编码以后，量化AC特征值的特点是1×64矢量中包含有许多“0”特征值，并且许多“0”是连续的，因此使用非常简单且直观的RLE对它们进行编码。

JPEG标准使用了1个字节的高4位来表示连续“0”的个数，而使用它的低4位来表示编码下一个非“0”特征值所需位数，跟在它后面的是量化AC特征值的数值。

编码格式为(符号1)(符号2)，其中，符号1表示2条信息，即行程和长度。行程是Z字形矩阵中位于非“0”AC特征值前的连续“0”值AC特征值的个数，长度是对AC特征值的幅度编码所用位数。符号2表示AC特征值幅度值。

(6)熵编码(EntropyEoding)

对于经过上述处理的图像，进行熵编码。熵编码是基于量化特征值统计特性的无损编码。常见的编码有行程长度编码、霍夫曼(Huffman)编码和算术编码。而行程-霍夫曼编码(RL-VLC)是JPEG图像压缩编码国际标准中常用的编码方法，主要用来对AC特征值进行熵编码。JPEG标准霍夫曼编码表是根据8×8图像块经二维DCT、Zigzag扫描后，非“0”AC特征值的幅值尺寸Level和所述AC特征值前“0”行程长度Run，即(Run,Level)数对的联合分布概率生成的。

在JPEG有损压缩方法中，使用霍夫曼编码来减少熵。使用霍夫曼编码的理由是可以使用简单的查表(LookupTable)方法进行编码，所查的表是霍夫曼编码表。编码时，每个矩阵数据的一个DC值和63个AC值分别使用不同的霍夫曼编码表，亮度和色度也需要不同的霍夫曼编码表。压缩数据符号时，霍夫曼编码对出现频率较高的符号分配比较短的代码，而对出现频率较低的符号分配较长的代码。这种可变长度的霍夫曼编码表可以事先进行定义。在本发明中，使用熵编码可以对DPCM编码后的DC特征值和RLE编码后的AC特征值进行进一步压缩。

对差分DC特征值和每个AC特征值采用两个符号进行编码，即符号1和符号2。对于DC特征值，符号1表示的信息称为长度，即DC特征值的幅度进行编码所用的位数，符号2表示DC特征值的幅度。对于AC特征值，符号1表示了两条信息，称为行程和长度。行程是在Z字形矩阵中位于非零AC特征值前的连续零值AC特征值的幅度进行编码所用的位数。符号2表示AC特征值的幅度。

经过上述几个系列步骤处理得到的图像编码或称位数据流形成一次压缩后的图像。

2、图像二次压缩

如果一次压缩以后，图像大小还超过协议规定数值，则需要进行二次压缩或者称拆包处理。在接下来进一步的差异化处理中，考虑差异化方法，根据图像大小与结合系统指定的文件字节数的{最小值、最大值}：{minSize,maxSize}，设置进一步的压缩比率：

If(image.getBytes()>maxSize)

{压缩比率＝image.getBytes()/maxSize*系统定义偏移量}

Else,

{压缩比率＝1}。

在此，所述差异化方法是指：由于系统处理的各个图像大小不一，但是在基于UDP协议进行数据传送过程中，每个报文长度有限制(一般为1500字节左右)。因此，在处理大小不一图像的过程，需要考虑各图像文件大小间的差异化，在系统中指定图像的maxSize，如果图像大小大于所述字节数，那么启动进一步的压缩处理，也就是通过所述公式计算出的压缩比，对图像进一步压缩处理。

所述1500字节是指在UDP传输数据时，单个数据报文的大小，不同的网络设备会略有不同，在实际传输过程中，每个图片会被按照这个大小进行自动分包并发送传输，客户端收到相应报文后会对数据进行组合处理。

此外，如果UDP协议发送的原始数据包长度过于长的话，超过65K左右，UDP协议无法正常拆分数据包，这里需要我们手动对数据进行一下二次拆包，保证UDP协议每次都能够正常发送数据报文。根据由压缩图像构成的图像的大小与指定的文件字节数的{minSize,maxSize}获得图像压缩比率：

如果图像的大小大于最大值，

压缩比率＝图像大小/最大值*系统定义偏移量，对于本发明使用的硬件平台显示分辨率，所述偏移量设置为0.4～0.6之间，其对应关系参考下表，否则，压缩比率＝1。

表1

因为根据设备显示分辨率的不同，其显示图像质量亦可不同，分辨率低的设备可显示质量稍差的图像，因此按照上表1给出的数据，偏移量与分辨率大小成正比。所述压缩比率的执行是通过以下步骤体现的：

(a)教师用户终端应用程序抓取教师上课的电子板书截图；

(b)根据教师用户终端的分辨率计算出合适的压缩比率；

所述通过图像的两次压缩，实现了快速高效的压缩、对比和传送。

本发明的方法，在进行所述图像压缩处理的过程中，将构成图像主要因素的DC特征值和AC特征值复制提取出来，并存保到独立于正在进行压缩处理的图像文件的其他文件中，而不影响图像的一次压缩处理。

通常，图像对比要综合考虑图像的轮廓分布、颜色分布、以及DC和AC值等，但是本发明中利用JPEG压缩过程中获得的图像DC和AC特征值，不但影响图像的压缩处理，又能通过前后两幅相邻图像的特征值的简单对比，判断前后两幅图像是否发生了变化，根据判断结果决定是否发将已经完成压缩的图像发送给学生用户终端。

这样简化的判断方法，减少了系统的运算量，这是因为教师在授课时屏幕显示的内容特别是电子板书内容通常是连续变化的，在相邻时间比如几秒内，板书的内容可能不变的或者变化持续增加的，而获取图像的设备、图像显示的环境、背景轮廓等信息又基本是不变的这样的特点。

通过这样简化对比即可发现前后两幅图像是否发生了变化，是否应该将图像同步发送给学生用户终端，如果图像内容没有发生变化，就不必发送。

由于图像的屏幕拷贝获取以及压缩处理是在固定时间间隔内正常进行的，一旦根据对比判断结果确定需要发送这幅图像，不会存在时间上的延迟，直接将压缩好的图像数据分割发送即可，而一旦根据判断结果确定不需要发送，就不会占用网络资源，同时学生用户终端上也不必重复更新前后相同的显示内容，影响用户的体验。

当然，本发明并不是排斥对两幅前后连续获得的图像进行全面的对比和判断，从而获得更加全面的对比结果。

具体地，通过计算两幅图像之间的距离，即DC和AC特征向量各分量之差的总和，来判断两幅图像的差异值。所述的差是指将每前后相邻两幅图像的DC和AC特征值(特征向量值)进行对比，对于DC特征值，对比其分量的正负号，如果分量同号标记为1，否则标记为0。

对于AC特征值，可以根据设定的对比阈值，如果分量之差超过对比阈值标记为0，否则标记为1。

由此，求出0或1的数目，相加求和，可以得出前后相邻两幅图像之间的差异值。

0的数目越多表明特征向量的差异越大，图像的差异越大。

进一步的，如果两幅图像之间没有差异，说明前后两个截屏的图像是相同的或者基本相同的，不需要进行同屏传送；如果存在差异值，说明前后两幅截图内容已经发生变化，教师用户终端将相应的已经压缩好的图像同屏传送给学生用户终端。

所述是否有差异的判断可以根据设定的阈值进行比较判断，也可以不设定阈值，只要有不同就进行同步传送。

可设置多个临时复制提取的DC和AC特征值存储文件夹，存储满一个文件夹后，就使用另一个存储文件夹，系统再去清空当前的文件夹备用。

当长时间检测到前后截屏的内容没有变化时，逐步自动延长自动截取屏幕图像内容的时间。比如由每隔几秒延长为每隔几十秒，甚至几分钟。

将一段时间内例如是一节课连续的多个前后两幅图像的差异值做成曲线，根据教学过程特别是板书的基本特点，当检测到差异值保持在一定范围内基本平稳时，将当前屏幕的内容作为第一版板书内容进行标记，当检测到差异值出现较大变化时，判断为新的一个版面的板书或新的显示内容开始了。

学生用户终端可以将接收到的同步图像数据保存成可再现的视频流，从而可以随时复习学习的内容，更优选的，视频流的播放与教师的音频录音根据时间特征(如由教学系统生成的时间戳)匹配起来，形成带有音频数据流与视频流的匹配播放。

通过所述判断步骤，实现了需要同步显示的图像的自动判别和实时发送，达到了同步截屏、实时压缩、同步判断、自动发送的目的。

注意，在执行完后续的图像发送判断步骤后，将确定不同步显示给学生用户终端的压缩图像的原始备份数据从所述数据库中删除。

确定发送图像分割步骤，分割确定要发送的经过压缩的所述图像，形成发送数据包。

经过所述压缩获得的JPEG图像以及同屏应用数据，如果所述JPEG图像以及同屏应用数据包大于报文的限制长度，会按照报文等比，将所述JPEG图像以及同屏应用数据包分割成若干子数据包，比如分割成若干临时TMP文件，这些分割的临时TMP文件通过网络以组播方式进行传送，学生用户终端获得所有的分割TMP文件后，对分割TMP文件进行合并，形成完整的JPEG图像，并在学生用户终端本地显示。

具体地，在发送UDP数据报文时，会根据发送的数据包长度对组播报文自动进行分包，避免由于数据包过大导致发送失败。但如果将UDP数据拆分过小，会导致短时间内会广播大量的数据，对局域网内网络带来较大的压力。根据数据长度，会动态计算并拆分数据，按照单个数据报文长度不超过16,000个Byte。根据本发明，根据反复调试尝试的结果，评定无限AP带宽占用率和响应速度，得到的最优的值为16,000Byte，并且最大的拆分数量不超过5个这样两组条件进行综合计算，从而得到一个较优的报文数组进行发送。

图12是根据本发明的网络教学系统的组播发送示意图。

如图所示，所述数据包发送步骤，基于UDP协议以组播模式向多个用户终端发送所述数据包。待转发的消息由组播地址经过无线AP转发是，转成单播的形式逐一发送，教师端应用通过组播地址，234.5.10.200，通过订制AP发送给各个终端。

无线接入点即无线AP(AccessPoint)是用于无线网络的无线交换机，也是无线网络的核心。无线AP是移动计算机用户接入有限网路的接入点。

组播(Multicast，多播)技术作为一种与单播(Unicast)和广播(Broadcast)并列的通信方式，有效地解决了单点发送、多点接收的问题，在实时数据传送、多媒体会议、数据仿真等领域有着广泛的应用。组播是将IP数据包向“一组”地址传送，使得数据包可以达到Internet上同一组的所有成员，其中“组”是一个特殊的IP地址标识。TCP、IP的IGMP协议中包含了组播的内容，协议规定组播使用的地址是从224.0.0.0到239.255.255.255。从224.0.0.0到239.0.0.255的多路广播地址是用于储存组播路由信息，这个范围以外的多路广播地址是为应用程序设定的。

UDP(UserData-gramProtocol，用户数据报协议)是建立在一种IP协议上的无连接协议，主要用来支持那些需要在计算机之间传送数据的网络应用，由于不提供数据的重传和确认，其优点是传送速度比较快，缺点是可靠性不高。包括网络视频会议系统在内的众多的客户/服务器模式的网络应用都使用UDP协议。一条UDP报文分为两部分：报头和数据区。UDP报头有四个域组成，每个域各占两个字节：源端口号、目标端口号、数据报长度、校验值。数据发送方将UDP数据报通过源端口发送出去，而数据接收方则通过目标端口接收数据。

UDP每次发送的数据包的大小一般不超过2048字节。在发送端和接收端确定一个传送缓冲区，大小为65,536字节，发送端首先把一帧视频数据写入缓冲区，将其分解成若干数据包，使得每个数据包的大小不超过2048字节，称为一个分组数据，对每个分组数据的每个数据包加上一个包头结构，包头结构定义了序列号、传送通道号、视频压缩格式、时间戳。数据报的长度域主要用来计算可变长度的数据部分，理论上包含报头在内的数据报的最大长度为65,536字节，在实际应用中通过会选择一个较低值，比如可以1024字节。

UDP建立在IP协议之上，但相对于IP协议，其增加可以提供协议端口以保证进程通信，整个UDP报文封装在IP数据报中传送。但是，UDP协议的问题是协议自身没有错误重传机制，对于错误的检测和处理在应用程序中进行。

根据接收者对组播源处理方式的不同，组播模型包括下列三种：ASM模型(Any-SourceMulticast，任意信源组播)、SFM模型(Source-FilteredMulticast，信源过滤组播)、SSM模型(Source-SpecificMulticast，指定信源组播)。

(A)ASM模型

简单地说，ASM模型就是任意源组播模型。在ASM模型中，任意一个发送者都可以成为组播源，向某组播组地址发送信息。众多接收者通过加入由该组播组地址标识的组播组以获得发往该组播组的组播信息。在ASM模型中，接收者无法预先知道组播源的位置，但可以在任意时间加入或离开该组播组。

(B)SFM模型

SFM模型继承了ASM模型，从发送者角度来看，两者的组播组成员关系完全相同。同时，SFM模型在功能上对ASM模型进行了扩展。在SFM模型中，上层软件对收到的组播报文的源地址进行检查，允许或禁止来自某些组播源的报文通过。因此，接收者只能收到来自部分组播源的组播数据。从接收者的角度来看，只有部分组播源是有效的，组播源被经过了筛选。

(C)SSM模型

在现实情况中，用户可能只对某些组播源发送的组播信息感兴趣，而不愿接收其它源发送的信息。SSM模型为用户提供了一种能够在用户终端指定组播源的传送服务。SSM模型与ASM模型的根本区别在于：SSM模型中的接收者已经通过其他手段预先知道了组播源的具体位置。SSM模型使用与ASM/SFM模型不同的组播地址范围，直接在接收者和其指定的组播源之间建立专用的组播转发路径。

局域网传送无需使用服务器，本发明中教师用户终端与学生用户终端通过AC路由(802.11AC，第五代无线网络标准，俗称5GWIFI)连接在同一网段。当然，也可以使用P2P技术进行同屏数据传送。

图13是根据本发明的网络教学系统的线程监控示意图。

如图所示，所述线程监控步骤，用于在基于UDP协议传送时对线程进行实时监控，对丢包数据进行补发操作。基本步骤如下：使用序列化工具对mData进行分片处理，按照顺序读取分片数据对象，将数据片段封装成DatagramPackage，通过UDP组播控制Handler发送报文，发送控制器休眠60毫秒，释放网络压力，启动数据报文定时重传监听，判断当前发送的数据报文是否过期，如果过期，则判断为结束当前操作，如果未过期，继续判断是否有后续数据片段，继续获取数据。

本发明使用无线AP基于SSM模型通过UDP协议传送分割好的数据包，SSM模型的优点在于：降低网络流量，减轻服务器和CPU负荷；减少冗余流量；使多点应用成为可能；其缺点也比较明显，由于通过UDP协议通信，导致非长连接，存在丢包现象。

为了去除冗余的同屏指令信息，保证同屏程序高速率、稳定的执行；以及从网络通信上行(设备至AP)的角度出发，保证上行数据推送的可靠性，对数据准确、高效传送到学生用户终端提供双重的保障，本发明采用线程监控的方式解决上述问题。

具体操作流程如下：

B1、数据报文发送处理步骤：教师用户终端对发送的数据报文进行签名编号，确保每次发送的报文组ID统一并且唯一，然后将数据报文发送至无线AP的组播地址，范围在234.5.*.*组播网段间固定组播地址，教师用户终端在启动程序时会自动计算组播地址，确保在一个网络环境内特别是局域网络环境内，每个课堂都独立占用为一个组播地址。

B2、自守护线程启动步骤：在数据报文发送后，教师用户终端会启动一个自守护线程，启动计时器，并建立补发堆栈，将本次的发送数据、发送目标存入补发堆栈，在到达自守护线程启动时间后，没有收到学生用户终端的数据报文反馈，自守护线程会启动数据报文补发处理，对没有反馈的学生用户终端补充发送数据包。该处理能够有效的避免在教师用户终端向无线AP进行上行发送UDP数据报文时网络不稳定而带来的数据丢失问题。

B3、反馈守护线程启动步骤：教师用户终端发送完组播UDP数据包后，当第一次收到学生用户终端的反馈消息后，会自动启动反馈守护线程，该线程会按照拆分后的数据包对用户终端的反馈进行保证重传处理，同时停止自守护线程。反馈守护线程的好处是能够以最小的网络消耗的代价完成数据报文的补发操作，能够以较短的等待时间快速的对单个数据报文进行包装重传处理。有效的解决了从无线AP将组播报文发送至学生用户终端时，发生的数据丢失而导致数据不统一的问题。

B4、报文反馈步骤：学生用户终端的客户端在收到了来自教师用户终端的组播数据包时，会先校验收到的数据是否已经接受完全，如果接受完全会将数据报文进行合并还原；在每收到一个数据报文的同时，立刻给教师用户终端发送反馈信息。

图14是根据本发明的网络教学系统的同步再现示意图。

如图所示，虚线框部分，所述过期数据处理步骤，用于丢弃系统中的过期数据，保证网络传输的畅通。对于学生端同屏处理方式，首先判断同屏处理方式，如果是指令同屏，则接受同屏指令，查找同屏资源，加载同屏画面，合并指令坐标数据，然后描绘图片；如果是图像同屏，接受图片序列碎片，判断图片是否过期，如果过期，则放弃处理，如果没有过期，判断图片序列是否接受完全，如果接受不完全，则等待下一序列碎片，当完全接受后，将碎片合并成图片对象，在本地描绘出图片。

所述过期数据是指在网络传送的数据包进行实时监控过程中，当数据包正在网络中传送时，教师用户终端又发送了新的数据包，教学系统检测到新数据包的存在，这时检测到的旧数据被视为过期数据。

教学系统会将过期数据进行丢弃处理，在教师用户终端、学生用户终端、无线AP等设备同时对处理过程中的过期数据进行丢弃，用以减轻数据在网络中传送给网络带来的压力，保证学生用户终端实时显示教师用户终端传送过来的最新数据。

图15是根据本发明的网络教学系统的数据包发送确认示意图。

如图所示，学生用户终端的客户端在收到了来自教师用户终端的组播数据包时，会先校验收到的数据是否已经接受完全，如果接受完全会将数据报文进行合并还原；在每收到一个数据报文的同时，立刻给教师用户终端发送反馈信息。具体的，教师端发送数据包，学生端获取数据包，教师端实时监控5秒内是否收到学生端数据反馈，如果没有，则重新补发数据包，如果是，则确认本条数据包发送成功。

学生用户终端接收到指令信息后，会向教师用户终端发送反馈信息。教师端通过判断学生端反馈的信息，进行判断学生是否完整的收到了教师之前发送的命令，当教师端判断学生端已经完整的收到了指令，教师端进行下一步处理(例如，发送指令，声音等)；当教师端判断学生端没有完整的收到指令，则进行重新发送指令的处理，直到学生端完整的收到。

基于此，所述过期数据处理步骤具体过程如下：

C1、教师用户终端上传组播报文到服务器，服务器通过网络传输把组播报文给学生用户终端；

C2、学生用户终端收到的组播报文时，如果报文签名为当前正在处理的报文组，则将报文信息入栈，并反馈信息发送给教师用户终端；

C4、如果学生用户终端收到的组播报文签名比当前栈中处理的数据旧，则表明该收到的数据报文已经过期，系统放弃当前接收到的数据报文。

图16是根据本发明的网络教学系统的同步再现示意图。

如图所示，教学课程开始后，教师在其用户终端即教师平板上上课，讲解PPT，通过SSL加密方式，将教师授课过程的有关数据采集传输至服务器，期间首先建立课堂ID，生成课堂时间戳，数据则包括教师音频流、文件操作指令、使用的电子文档、教师端压缩图像等，通过Socket传输给应用服务器集群，以存储至数据库服务集群，根据课堂ID配对，根据课堂ID及时间戳下发数据，通过Socket传输所述的教师音频流、文件操作指令、教师端压缩图像和使用的电子文档，通过SSL解密在学生平板上再现。

在学生用户终端上的软件客户端或APP中，内置有图像子数据包合并显示模块，用于将接收到的若干子数据包如若干临时TMP文件，合并形成完整的JPEG图像，并在学生用户终端上进行显示，完成同屏显示的目的；以及，

构建系统服务器学习能力，系统中字典表(数据库表)记录各种文件操作指令，并通过数据库索引配对，把操作指令指向操作指令对应的实际执行语言，终端通过读取实际执行语言，完成模拟操作的执行。

Socket是网络上运行的两个程序之间双向通信的一端，它既可以接受请求，也可以发送请求，属于常用的网络底层通信方式，通常由IP地址和端口号组成。常用的Socket类型有两种，一种是流式Socket，一种是数据报式Socket，流式Socket是面向连接的Socket，针对面向连接的TCP服务应用。本发明在数据传输时可以使用Socket方式。

根据本发明的网络教学方法的实时录制过程包括将经过压缩的确定要发送的图像数据、应用数据、可能使用的电子文档(如PPT)和音频数据分别保存至本地服务器或者网络服务器的数据库中，如果首先保存到本地服务器中，还将通过网络上传到网络服务器中。进一步的，还可以将确定要传输给学生用户的原始图像数据保存到服务器上，当用户需要下载更清晰图像时，可以从这个数据库下载。

对于应用数据，例如可以使用时间戳标识+动作类型ID+动作内容数据进行课程录制。

(1)例如：在白板上绘制了一个圈，将记录：14209372114(时间戳)+type：11(画圆标记)+圆心坐标和半径(内容数据)，将此记录通过Socket发送至服务器端保存，可以再由服务器分发给其他用户。

(2)例如：在白板上用画笔绘制一条线或书写一个公式，将记录：多边形：14209372114(时间戳)+type：2(绘制类型)+多边形顶点数组坐标(内容数据)，将此记录通过Socket发送至服务器端保存，可以再由服务器分发给其他用户。

(3)例如：在白板上用画笔绘制一条线或书写一个公式，将记录：画笔：14209372114(时间戳)+type：3(绘制类型)+手指的绘制路径点坐标(内容数据)，将此记录通过Socket发送至服务器端保存，可以再由服务器分发给其他用户。

(4)例如：直线：14209372114(时间戳)+type：4(绘制类型)+直线两点坐标(内容数据)，将此记录通过Socket发送至服务器端保存，可以再由服务器分发给课堂用户。

(5)例如：重绘：14209372114(时间戳)+type：5(绘制类型)。

(6)例如：清除：14209372114(时间戳)+type：6(绘制类型)。

这种方式可以应用于网络教学系统中教师用户使用电子白板讲题、切换题目、文字表情信息和音频信息等记录。

除此之外，电子白板进行操作所生成的动作消息，还包括在所述电子白板上绘制直线、矩形、圆形或折线中任意一种的动作消息；或者，在所述电子白板上使用橡皮擦工具进行擦除操作的动作消息；或者，在所述电子白板上加载图片或几何图形的动作消息；或者，在所述电子白板上新建页或上、下翻页的动作消息中的任意一种。

教师用户端通过多媒体白板(电子白板、PPT文档操作等)进行标注和实时音频讲解，系统通过Socket通信接口，通过SSL(SecuritySocketLayer，安全套接协议层)加密，对时间戳标识Timestamp、多媒体白板应用数据流标记Type、实时音频Audio，实时传输至系统Server服务器数据库(ServerDatabase)，系统明确定义了数据存储格式，时间戳、应用数据流、实时音频按固定的数据存储格式(这些数据格式可以使用本领域公知的存储格式例如mp3)实时存储至Server服务器数据库(ServerDatabase)及服务器存储单元，实现实时课堂录制。

图17和18是根据本发明的网络教学系统获取路径坐标数据的示意图。

如图所示，所述Path路径坐标数据的记录过程如下：

A1、解析记录的Path路径坐标数据，并存放至临时的指令坐标堆栈中，然后对屏幕进行初始布局，在屏幕的canvas画布上先设置背景图案；

//如果是画笔，将当前的记录路径保存到list

this.mPathPaintlist.add(this.mPathPaint)；

//保存画笔和路径履历

PathAndPaintpap＝newPathAndPaint()；

pap.setPath(newPath(this.mPath))；

pap.setPaint(newPaint(this.mPaint))；

this.mPathAndPaintlist.add(pap)；

A2、新建一个Bitmap，并以此Bitmap生成一个临时画布temptCanvas；

A3、将tempBitmap背景设置为透明，这样做的目的是把临时画布temptCanvas的目标，定位在新建的tempBitmap上；

A4、通过所述构造后，提取指令堆栈中的坐标指令，一一还原，通过temptCanvas进行从写，temptCanvas的一切draw函数，都会把相应的图像画在临时的tempBitmap上，这样在动作回溯的过程中，画点，画线调用temptCanvas而不是原先屏幕上的canvas，如temptCanvas.drawPoint,temptCanvasRect等等；

A5、所有的指令坐标堆栈执行完毕后，执行canvas.drawBitmap(tempBitmap,0,0,null)；temptCanvas负责的是将各种画笔痕迹画在tempBitmap上，而canvas负责将tempBitmap绘制到屏幕上。

所述动作描绘的逻辑步骤如下所示，其中touchMove函数传入的(floatx,floaty)参数分别为横纵轴坐标：

图19是根据本发明的网络教学系统的数据流片段分割示意图。

如图所示，为了版权保护或者保密的需要，又不会过多影响用户的体验，还可以采用成本较低并能起到保密作用的方式。也就是说，所有这些录制的数据流，例如教师讲课的实时音频数据流可以根据时间戳生成的周期分割成片段，比如每隔10秒或者30秒分割一个片段，并对这些数据流片段使用课程ID和随机编码进行组合命名，并构建数据流片段名称与时间戳之间的对应关系表。

具体的，将所述所有数据流的至少一种分割成数据流片段，这些数据流片段可以以课程标识和随机产生的编码进行标记，数据流的分割可以参照或者根据时间戳标识的生成情况对应进行。在进行数据流片段分割后，构建这些数据流片段与时间戳标识的对应关系表，保存至数据库。在首次点播这些录制课程时，将按照对应关系表顺序传输这些数据流片段至点播用户终端，使得用户终端可以顺序播放这些数据流，正确显示录制的课程。当保存到用户终端本地时，这些数据流片段是杂乱的，需要使用对应关系表才可以正确将这些片段顺序播放出来。

也就是说，视频流片段或者音频数据流片段的ID编码采用随机的方式，这些编码与时间戳形成关系映射表，用户浏览时视频片段和音频片段都下载到本地，但是没有对应的关系，无法顺序播放，用户首次浏览之后只要不清空缓存，下次浏览时只需要重新下载关系映射表即可，每次关系映射表的数据被读取以后，将在预定时间后自动与本地时间同步，从而失去映射意义，达到保护版权的目的，而又不会影响用户的体验。可选的，映射关系表可以设置有效时间，比如24小时，或48小时，或者任何适当的合法授权时间，映射关系表下载到终端后，网络教学系统的计时模块开始计时，时间终止时映射关系表自动失效，删除或粉碎映射关系表数据。

时课程的录制可以由具备权限的用户终端进行，比如教师终端或者获得授权的学生终端，录制得到的数据流可以先保存到本地数据库或者终端数据库，再由这些数据库通过网络上传到网路服务器，也可以直接保存到远程网络服务器。

图20是根据本发明的网络教学系统的点播回放的示意图。

可以使用Android平板电脑或智能手机连接WIFI/2G/3G/4G网络登录本发明的网络教学系统，通过课程点播或课程回放列表对录制课程进行点播；点播对应课程获取课程ID，连接网络教学系统数据库，获取课程ID对应的应用数据流、音频数据流等数据，以及该课程可能用到的电子文档等各种文件，下载这些电子文档资料到本地，实现对已录制课程的点播和回放，回放过程支持暂停、播放、结束。

各种数据流的存储是单独并且彼此独立的，获取下载的过程也是彼此独立的，还可以根据需要下载相应的数据，比如用户觉得只需下载音频数据即可，无需传播其他的数据，就可以通过用户终端的客户端指令只获取想获取的数据，并且进行播放，特别是在网络状况不佳的情况下。

图21是根据本发明的网络教学系统的点播回放的另一示意图。

为了版权保护或者保密的需要，又不过多影响用户的体验，可以采用成本较低并能起到一定保密作用的方式。在服务器数据中，将图像数据流、应用数据流和音频数据流的至少一种分割成数据流片段保存，比如将音频数据流分割成音频数据流片段，这些数据流片段以课程标识和随机产生的编码进行标记，形成数据流片段与时间戳标识的对应关系表。数据流的分割可以参照或者根据时间戳标识的生成情况对应进行，用户在首次点播时，系统服务器按照时间顺序发送这些数据流片段，使得用户可以顺序流畅的回放。当这些数据流保存到本地缓存时，如果用户再次回放时，就要向服务器请求下载这些数据流片段与时间戳标识的对应关系表，这样就能正常播放这些数据流。

多个学生用户在点播回放某课程ID的录制文件时，系统首先检查本地缓存是否保存了该课程ID的数据，如果没有保存，就通过网络访问服务器端的数据库，根据课程ID分别获取图像数据(或片段)、应用数据(或片段)、可能使用的电子文档(如PPT)、音频数据(或片段)以及对应关系表，这些数据分别以socket加密信道传输并且缓存至学生用户终端上，再由学生用户终端的客户端或APP根据对应关系表将这些数据组合再现实现点播回放；如果本地缓存已经保存，就通过网络访问服务器端的数据库，只需获取对应关系表，再由学生用户终端的客户端或APP根据数据流片段对应关系表将这些本地已经缓存的数据组合再现实现点播回放。

当用户需要登录所述的网络教学系统进行口语的学习或者评估测试时，采用本发明的语音评估方法，也就是网络教学系统的语音评估模块可以实现，对于口语的实时评估。

根据如图22所示的语音评估流程，当用户需要通过网络教学系统，进行口语测试或考试时，具体步骤如下：

1.采集音频数据：使用麦克风采集语音数据(默认格式：pcm编码wav文件，16000采样率，16比特量化，单声道)

2.提取语音mfcc特征：通过对语音进行预加重、分帧加窗、傅里叶变换、梅尔滤波器组、对数运算、离散余弦变换提取语音的mfcc特征

3.提取MGPP特征：采用大量语音数据(包含本土语音和非本土语音)和EM算法训练出通用背景模型(UBM)，

模型参数：

λ_i＝ω_i，μ_i，Σ_i，i＝1，...，M(1)

对于每一帧的MFCC特征χt，其后验概率有以下公式计算得出：

$> P (λ_{i} | χ_{t}) = \frac{ω_{i} p_{i} (χ_{t} | μ_{i}, Σ_{i})}{Σ_{j = 1}^{M} ω_{j} p_{j} (χ_{t} | μ_{j}, Σ_{j})} - - - (2)$ >

由此MGPP特征如下定义：

$> \begin{matrix} b = [b_{1}, b_{2}, ..., b_{M}] & b_{i} = \frac{y_{i}}{T} = \frac{1}{T} Σ_{1}^{T} P (λ_{i} | χ_{t}) \end{matrix} - - - (3)$ >

$> M G P P = \sqrt{b} - - - (4)$ >

4.提取PPP特征：采用多层感知机(MLP)音素识别器来计算帧的音素后验概率，在此说用音素的状态来替换UBM中的高斯，就直接用这个音素识别器，公式中直观的效果就是上述式子中的P(λi|Xt)被替换成音素识别器计算出来的P；然后同样采用公式(3)和(4)来提取音素后验概率特征(PPP)。由于有5种语言，不同语言音素，都提取了一个PPP特征，最终融合着5种特征，得到最后的PPP特征。

5.提取基于音素持续时间的特征：采用多层感知机(MLP)音素识别器来提取语音中音素信息，音素识别器有定界音素的功能，然后才有计算音素后验概率的功能，定界音素的功能，可以知道一段语音有哪些因素，用多少个音素，这样提取基于音素持续时间的特征就简单了。

定义及提取以下特征：

特征A)，语音的音素倒数率(ReciROS)：为单位时间内语音所包含音素个数的倒数；

特征B)，暂停音素的平均持续时间(AvgPauDur)：为语音中暂停音素(比如静音)平均的持续时间；

特征C)，有效音素持续时间比(VoiPhoDurRatio)：为有效音素(除去了暂停音素)持续时间总和与所有音素持续时间总和的比值；

特征D)，有效音素数目比(VoiPhoNumRatio)：为有效音素(除去暂停音素)个数与所有音素个数的比值；

特征E)，音素持续时间本土差异(PhoDurNatDiff)：为本土发音音素持续时间与观测音素持续时间的差值；

特征F)，音素持续时间非本土差异(PhoDurNonDiff)：为非本土发音音素持续时间与观测音素持续时间的差值；

特征G)，音素频率信息(PhoFreq)：一段语音中的音素频率(不存在的因素的频率为零)。

除了特征A)外，其余特征B)至G)都通过特征A)进行归一化，以消除说话速率对最终效果的影响。

同样由于这七个特征对于每种语言的音素都提取了，最后融合，得到最终的基于音素持续时间的特征。

采用两层线性核函数的支持向量机，具体采用线性SVM分类器来进行得分层面的融合，其中第一层支持向量机对于PPP子系统和音素持续时间特征子系统，产生一个得分，第二层进一步利用这些分数作为输入产生一个最终的分数。

系统有效性评估：计算机器评估打分与人类评价打分的Spearman相关系数，以此评价特征对于自动本地口音评估的有效性。

数据采集：通过用户使用的移动设备，用摄像头采集图像数据，用麦克风采集音频数据，以及储存在设备终端中的应用数据。所采集的数据按用户的用户名等信息分门别类的储存在云端服务器的数据库中。

同步显示：采集数据一方面传向云端的服务器储存，一方面可以自动显示在学生用户的终端设备上。

实时录制：用户通过终端，可以随时接收通过服务器传回的数据及课程，随时点播回放自己的数据和课程数据。

语音评估：在网络教学或者回放过程中，用户录制了自己的音频数据，通过上述语音评估步骤，提取融合后的PPP和基于音素延迟的特征。通过支持向量机的方法打分并且融合，返回最终分数，用以评价用户口语学习的质量以便增强学习效果。

之前的Spearman相关系数是表示这个方法的打分和很准确的人为打分之间的相关系数，相关性越大证明该方法越准越有效，所以Spearman相关系数是为了说明本发明提出的特征在口语评估中的有效性；而用以判断口语质量的分数，在两成支持向量机后就已得出，一层子系统的得分，另一层得分的融合。

用来评估的特征的有效性的实验结果：

表2为本发明定义的7种基于音素持续时间的特征及其计算方法。表2示出了基于音素持续时间特征概览。

表2

表3显示了不同特征及其融合后的特征在开发数据集上的实验结果。结果的性能由Spearman相关系数来体现。

第一，基于多种语言的PPP特征实现了较高的相关系数，原因是PPP除了包含声学信息，还包括了其他多种语言的音素的信息；

第二，从表中可以发现，融合7种基于音素持续时间的特征进一步提升了系统的性能；最后关于评分层融合，可以从表中看出，融合基于多种语言音素的PPP特征和基于多种语言音素持续时间的特征能够达到本系统最高的相关系数。

表3

a：多高斯混合模型(GMM)的高斯数位256

b：该参数取决于不同的特征，请参考表4

c：这是7种基于音素延时特征经过评分层融合后的结果

表4：以不同语言音素为特征计算出的特征在开发数据集上取得的性能结果

表4

a：A到G为基于音素延时的特征的类别(category)，ppp为音素后验概率。

表4：子系统6在测试数据集上达到的性能

子系统6a融合特征相关系数0.6089

表5

a：参见表3

从表4的最后一行可以看出基于单种语言的PPP特征得到的结果都较差，而融合这些PPP特征却可以取得更好的结果。此外表4还给出了基于每个单语言音素的不同特征的评分和基于5种语言音素的融合评分相关细节。表5提供了子系统6在测试数据集上分别取得的相关系数。

根据本发明所述的方法，为了进一步提高本地口音评估系统的性能，提取了基于多种语言的相关特征而不仅仅是英语的。

图23展示了基于多种语言提取出的7种音素持续时间相关的特征性能都比单单基于英语的特征好。尤其从表4中可以得到：本发明的方法能够通过子系统6取得0.6089的分数。这表明，本发明的语音评估方法的特征性能很好，对于口语评价的有效性很高。

在上述实施方式的描述中，用户终端和服务器是可以由与包含互联网在内的通信网络进行连接的构成，所以也可以是以经由通信网络下载程序代码的方式流动地承载程序代码的媒体。在这样从通信网络下载程序代码的情况下，也可以是该下载用的程序预先保存在主体装置中或者从别的记录媒体进行安装的构成。此外，本发明可以通过上述程序代码以电子传输所体现的、被嵌入于载波中的计算机数据信号的形态而得以实现。

本发明的网络教学方法及系统区别于视频流录制，主要记录并传输动作/操作产生的坐标触发数据，实时在其他用户端或后期点播中通过触发数据还原课堂内容，具有存储和传输数据流小的特点。特别是在教学过程中如果有闲置时间，将不发送任何数据，或者只发送音频数据流，从而最大程度上提高了传输效率。通过应用本发明的方法，使得同屏数据信息不局限于图像等，通过传送指令及坐标点数据的方式进行同屏信息推送，大大减少了网络的并发数据量，使得同屏速率在质上有了大幅度的提升、节省大量的存储空间及使用流量，取代了传统视频流录制的方式。

本发明的网络教学方法及系统，从分类数据的录制和分类单独存储，生成统一的时间戳进行标记，到对需要加密的数据进行简单分割，建立对应关系表，根据需要单独获取录制数据，实现流畅的数据传送，而使用本地的终端上客户端将这些数据有机组合起来，甚至可以根据客户端的需要仅仅获取部分数据进行播放，系统性的解决了教学过程录播问题。

本发明的网络教学方法及系统还定义了明确清晰的数据储存、还原格式，过程文件录制和文件回放的所有数据均通过时间戳标识+动作数据流+音频数据流方式从数据库，获取实现网络在线交流过程中比如授课板书及授课音频还原，支持Android/iOS/Windows等操作系统，具有非常良好的可跨平台展示的能力，方便快捷扩展到其他展示平台。

以上对于发明的描述是针对网络教学的，围绕学生用户和教师用户之间的交互的同屏显示、实时录制和点播回放进行的，可以理解的是，本发明中所称的学生用户和教师用户在其他类似的基于网络的交流系统可以是网络会议的参与者和/或会议主持人、发言人等，他们之间可以是平等的关系，也可以是主从的关系，而且这样的关系是可以切换的或者对换的，所称的学生用户、教师用户以及网络教学系统并不是为了限制本发明的用途，仅作为一种典型情况进行示例性的描述，任何基于网络的，需要将某终端上显示的内容和/或操作的内容发送到网络的其他至少一个终端的应用，均适用于本发明的方法和系统。

以上介绍了本发明的较佳实施方式，旨在使得本发明的精神更加清楚和便于理解，并不是为了限制本发明，凡在本发明的精神和原则之内，所做的修改、替换、改进，均应包含在本发明所附的权利要求书概括的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种具有语音评估功能的网络教学方法及系统 [P] . 中国专利： CN105578115B . 2016.10.26
2. 一种具有语音识别功能的网络教学方法及系统 [P] . 中国专利： CN105681920B . 2017.03.15
3. IT System of convergence phonics education with IT and robot and phonics education method therefor and computer-readable recording medium having program therefor [P] . 韩国专利： KR102121113B1 . 2020-06-17

机译：具有IT和机器人的融合语音教学的IT系统及其语音教学方法和具有该程序的计算机可读记录介质
4. IT System of convergence phonics education with IT and robot and phonics education method therefor and computer-readable recording medium having program therefor [P] . 韩国专利： KR20200013962A . 2020-02-10

机译：具有IT和机器人的融合语音教学的IT系统及其语音教学方法和具有该程序的计算机可读记录介质
5. Billing system capable of being connected to an output apparatus having printing function and copy function via a network server apparatus capable of being connected to an output apparatus having printing function and copy function via a network and method of billing by system capable of being connected to an output apparatus having printing function and copy function via a network [P] . 美国专利： US8319998B2 . 2012-11-27

机译：能够经由网络连接到具有打印功能和复印功能的输出设备的计费系统，能够经由网络连接到具有打印功能和复印功能的输出设备的网络服务器以及能够通过网络连接的系统的计费方法通过网络具有打印功能和复印功能的输出设备