语料
语料的相关文献在1986年到2023年内共计1775篇,主要集中在汉语、语言学、常用外国语
等领域,其中期刊论文560篇、会议论文10篇、专利文献1205篇;相关期刊374种,包括江苏警官学院学报、语文学刊、考试周刊等;
相关会议8种,包括2006年“数字图书馆与开放源码软件(OSS)”学术研讨会、全国第八届计算语言学联合学术会议、中国声学学会2005年青年学术会议[CYCA'05]等;语料的相关文献由2924位作者贡献,包括李稀敏、肖龙源、魏誉荧等。
语料
-研究学者
- 李稀敏
- 肖龙源
- 魏誉荧
- 刘晓葳
- 蔡振华
- 周辉阳
- 谭玉坤
- 吴华
- 汪冠春
- 胡一川
- 唐华阳
- 岳永鹏
- 王海峰
- 郝玉峰
- 于浩
- 代翔
- 余正涛
- 农强
- 刘连芳
- 孟遥
- 李健
- 温家凯
- 何中军
- 刘林峰
- 崔莹
- 张海雷
- 张马成
- 曹琼
- 权圣
- 陈包容
- 曹海龙
- 王兴强
- 黄细凤
- 周义廷
- 周国栋
- 李强
- 李科
- 杨福星
- 林余楚
- 熊友军
- 程国艮
- 肖清林
- 苏依拉
- 赵铁军
- 郭剑毅
- 黄宇凯
- 黄杰
- 黄河燕
- Y·卡罗夫赞格威尔
- 张井
-
-
王明乾;
邓鹏;
倪林
-
-
摘要:
随着科学技术的不断发展,各类新型武器装备层出不穷,武器装备信息呈现出的来源更加广泛、形式更加多样、处理更加复杂的态势,如何快速获取、处理、分析武器装备信息对于武器装备的研究论证、开发以及作战运用具有重要意义。论文利用爬虫、文本预处理技术,从门户网站抓取大量武器装备相关信息,构建了武器装备领域的语料库,对基于深度学习的武器装备语料的自动分类方法进行了研究,并提出了基于Attention-CNN的武器装备语料分类方法。实验结果显示该方法准确率为0.9756、召回率为0.9744、F1-score为0.9744,具有较高的分类效果。实验结果表明Attention-CNN方法能够大大提高武器装备相关信息获取、分析效率,对于辅助情报分析人员开展武器装备情报分析工作,为高新武器装备研发、作战运用提供信息保障具有重要意义。
-
-
许津彰;
马思宇
-
-
摘要:
随着交际能力成为世界各国语言教育培养的主要目标,汉语尤其是汉语口语测试在海外国民教育体系下的测试取向,是国际中文教育需要关注的。基于收集英国高中学生在IBDP初级中文口语测试中的语料及对应的成绩和评语,通过语料抽样分析、语料与成绩的对应分析、IBDP评价标准与考官评语对照分析,探究其口语测试取向。研究发现,IBDP汉语口语测试既有语言知识层面的考查,也有交际层面的评估,总体上语言知识的测量是让位于交际的,凸显了交际能力培养取向。这种基于综合性评价的交际语言测试模式对汉语测试的国际推广有重要的借鉴意义。
-
-
陈良富
-
-
摘要:
介绍了一种中文语义的分析方法,用于对智能家居控制命令进行理解、分析,以便进一步对家居系统内的各种设备进行控制。分析主要通过语料和槽位里的实体集合来理解控制命令。用槽位分析的方法可以方便实现智能家居语音控制命令分析,控制精确,尤其适合嵌入式应用。在实际使用中,能够有效达到控制目的。
-
-
取次;
高定国
-
-
摘要:
藏文文本质量是影响藏文信息处理的重要因素,纠正藏文文本中复杂多样的音节错误是提高藏文文本质量的重要工作。本文以1.5亿多音节的真实藏文文本为统计源,并从中查找出2 333 617个错误音节(约占总语料库文本的5.6%),并根据上下文信息和藏文文法规则对错误音节进行人工纠错和分类,把藏文音节错误归为11种类型,并统计每一种错误类型的出现频度、高频错误音节等,分析错误原因,为藏文文本校对系统等软件的设计和实现提供参考。
-
-
何兆强;
张永刚
-
-
摘要:
吴晓峰的著作《〈文选〉所存六朝时语研究》针对《昭明文选》语言研究不足的现状,对《昭明文选》所存文献及其注中的六朝时语进行了系统的检索和深入的考察分析,拓展了文选学研究领域,深入发掘了《昭明文选》的语料价值,方法系统而严密。
-
-
曹玉华
-
-
摘要:
初、中级日语学习者在应该使用「てくれる」的句子中不使用或使用其他表达的情况时有发生,本文基于视频语料库以包含「てくれる」的日剧台词为研究内容,围绕讲话人视角、是否体现恩惠性、日语的强主观性等特点进行分析,将「てくれる」句归纳为四类,再从每一类语料中选择句子设计成问卷,对学生实施问卷测试,统计学生各类句子完成情况,分析原因思考对策。
-
-
孙宇欣;
姚权;
Kim HaKyung;
许文飞;
王文清;
孙靖雯
-
-
摘要:
目的探讨国产智能手机录音用于测试基频(F0)的可能性及潜在影响因素。方法38例成年女性朗读一句话(语料2)以及持续发元音/a/(语料1),用两种智能手机(华为G7 Plus和Vivo X6)和Praat软件进行录音,测试F0,两种智能手机分别被随机放置在三个角度(0°、45°和90°)和四个距离(距离口唇5、10、15、20 cm),而用Praat录音的Shure-SV100C动态麦克风保持在45°和距离口唇15厘米以获得标准参考数据;将智能手机测得的F0与Praat测得的标准参考数据相比较。结果智能手机的放置位置和语音材料对F0无显著影响,设备、语料、距离和角度的主效应均不显著(P>0.05),而智能手机的类型却有明显不同,两种测试语料Vivo手机和Praat测得的F0差异均有统计学意义(对于/a:/,P=0.0140.05)。结论国产智能手机(华为G7 Plus和Vivo X6)可用于F0的测试,手机的放置位置和语音材料对F0测试结果无显著影响,但使用华为G7 Plus手机进行F0测试时,录音距离和角度分别为5~20 cm和0°~90°。
-
-
余涵彬
-
-
摘要:
词汇是一门语言的基础,在词汇学习中尤其要注意词语搭配。参考 CLEC 语料库中学习者出现的一些言语失误,基于 BNC 和 COCA 两大英美语料库中真实的语料来探索英语词汇中的动名词搭配,一方面可以帮助非本族语者鉴别地道和非地道的表达,另一方面也可以凸显词汇搭配的重要性,进而为探索相应的教学策略提供启发。
-
-
刘烨秋
-
-
摘要:
在礼貌原则的框架下,以中国国际电视台主播刘欣和美国福克斯商业频道主播翠西·里根就中美贸易等相关议题进行的一场"跨洋对话"为语料,分析该对话中言语打断现象的分类及其功能,认为不是所有的打断都是不礼貌的,打断是否礼貌跟打断的成功与否没有直接关联,但礼貌原则能指导打断的有效实施从而促进对话交流.
-
-
周红;
周明理;
姜思佳
-
-
摘要:
针对计算机辅助翻译的现实需求和应用现状,借助云平台技术在翻译领域中的应用优势,文章基于大量语料翻译实践的基础,提出基于云平台的计算机辅助翻译的思路,对其应用过程中的难度进行针对性的分析,提出可行的应用模式,为机器翻译提供优秀的解决方案.
-
-
-
蒋宏飞;
曹海龙;
杨沐昀
- 《第二届全国学生计算语言学研讨会》
| 2004年
-
摘要:
词聚类算法对自然语言处理具有重要意义.Brown1990年提出了一种经典的词聚类算法,但是由于算法本身的复杂度较高,故难于对大规模语料进行处理(Brown文中提到词数超过5000便是不可行的).本研究中我们尝试着对上万词数的中文词语料进行了实现.并且,针对算法时间复杂度高,不能应用于更大规模语料库的问题,提出了一个加速改进思想.在近似的情况下,它可以降低原算法一阶复杂度.本实验所用的语料来自人民日报1998年1月份的部分内容.
-
-
萧国政;
胡惮
- 《第二届HNC与语言学研讨会》
| 2003年
-
摘要:
语料的收集、检索、加工是语言研究的前期工作,是整个研究的基础。传统的人工收集加工方法工作量大、准确性不高,这一问题已经成为当代语言研究的瓶颈。本文提出了一种语料检索工具的计算机程序设计方法,并举例说明了该工具在语言学研究领域的具体应用。
-
-
孙青
- 《2006年“数字图书馆与开放源码软件(OSS)”学术研讨会》
| 2006年
-
摘要:
GATE是目前在自然语言处理领域比较受推崇的一个开源项目,它是一个应用非常广泛的自然语言处理和信息抽取的开放型基础结构,由Sheffield大学的自然语言处理研究组在EPSRC(The Engineering and Physical Sciences Research Council)资助下研究开发.GATE为用户提供图形化的开发环境,被许多自然语言处理项目尤其是信息抽取研究项目所采用.该系统可以自动处理文档格式、结果存储及分析评价,还可以针对结果进行系统调试.对语言处理的各个环节(从语料收集、标注、重用到系统评价)均能提供很好的支持. MUC所定义的信息抽取,分为命名实体识别、共指消解等五个典型的信息提取阶段.其中,命名实体的识别是目前最有价值的一项技术,它是信息抽取任务的一个非常重要的预处理模块,也是最基础的一个阶段.命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别.MUC中提到的命名实体包括人名(Person)、地名(Location)、机构名(organization)、日期(data)、时间(time)、百分数(percentage)、货币(monetary value)这七类命名实体.GATE所提供的整体解决框架以及ANNIE应用实例组件等,已经能够很好地实现英文命名实体的识别,能够对以上提到的七类命名实体更为具体的识别与抽取进行扩展,并提供了信息抽取的抽取规则编写与定义、词性标注等相关功能.本文内容包括: 1 GATE简介 2 GATE的基本设计思想与原理 3 英文信息抽取组件ANNIE 4 GATE中语料的收集与处理 5 系统评价 6 结语
-
-
德·萨日娜
- 《全国第八届计算语言学联合学术会议》
| 2005年
-
摘要:
现阶段的蒙古文语料库加工、文本校对、文字识别及机器翻译等工程迫切需要面向信息处理的蒙古语句法、短语研究.本文通过对语料样例进行分析,概括出蒙古语属格短语的三大类型--名词性属格短语、动词属格短语和动名性属格短语,并对其内部结构分别进行进一步的分类和形式化描述,为蒙古语短语的整体研究铺开思路、做了补充,也为蒙古语语句生成提供了部分的合理性短语知识.
-
-
李鑫;
杜永萍;
黄萱菁;
吴立德
- 《第一届全国信息检索与内容安全学术会议》
| 2004年
-
摘要:
本文介绍了用WordNet的同义词集和上位概念及词汇间的依存关系作为分类特征进行问题分类的方法;把来自句法分析器和Wordnet的语言知识应用到了问题表示中.测试了采用词汇特征、句法特征、语义特征时的问题分类精度,实验结果表明:通过利用x统计量对Wordnet中的概念集合进行选择后,SVM分类器达到了91.60﹪的精度,好于采用同样语料和分类体系利用tree kernetl作为分类特征达到的90﹪的最好分类精度.
-
-
任纪生;
王作英;
赵敏
- 《2004中文信息处理技术研讨会》
| 2004年
-
摘要:
统计语言模型必须包容语言中各种各样的全局和局部约束,N元文法却无法融入语音间长距离的语义信息.潜在语义分析利用奇异值分解实现词和文本的数量化表示,以揭示训练语料中所呈现出的显著语义关系.本文将潜在语义信息应用于汉语语音识别的两个方面:一是语言模型自适应,动态调整不同主题语言模型的插值系数,相比于均匀插值系数法,识别正确率绝对提高6.12个百分点;二是同三元文法相结合,结合一种新的融合方式以调整三元文法的概率,实现表明识别正确率可绝对提高1个百分点.
-
-
-
张孝飞;
陈肇雄;
黄河燕;
张亮
- 《第二届全国学生计算语言学研讨会》
| 2004年
-
摘要:
双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题,其中涉及词法、语法、语义以及不同语言间的固有差异和翻译习惯等诸多问题.本文在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧算法,将词对齐问题转化为迭代求解锚点词对的过程,取得了较好的效果.经过对真实语料的测试,词对齐准确率达93.0﹪,召回率达77.3﹪,F值达84.2﹪,基本上满足了应用的实际要求.
-
-
王会珍;
朱靖波;
陈文亮;
季铎;
张斌
- 《第二届全国学生计算语言学研讨会》
| 2004年
-
摘要:
话题追踪(topic tracking)的目的是监控新闻故事流识别出与预先给定几个新闻故事表述的话题相关的后继故事.本文采用一元语法模型对中文故事进行话题追踪,并分析了影响中文话题追踪性能的3个因素:特征数目、分词技术、命名实体识别技术.实验结果显示选取适当的特征数目、使用好的分词技术、使用命名实体识别技术都能改进中文话题追踪系统的性能.本文选用TDT3语料作为测试语料,系统达到最好的追踪性能时,在漏报率为4.0﹪的情况下,误报率仅为1.8﹪,系统最小开销为0.0029,Norm(C)为0.1239.