首页>中文会议>工业技术>自动化技术与计算机技术>第一届学生计算语言学研讨会

第一届学生计算语言学研讨会

召开年：2002
召开地：北京
出版时间： 2002-08-01

主办单位：中国中文信息学会

会议文集：第一届学生计算语言学研讨会论文集

会议论文

热门论文

全部论文

最新会议

更多>>

全选（0）

1.汉藏翻译系统中的动词处理研究
- 看卓才旦;金为勋;洛智华;朋毛扎西
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：机器翻译系统中,语言技术是居于核心地位的技术;谓语是句子结构的核心,动词又是谓语的主要形式,因此翻译系统中的动词的处理至关重要.本文依据汉藏翻译系统的需要,通过汉藏实际语料的对比分析,进行了汉藏动词的特点比较,就动词的分类、动词的时态及动词作句子各种成分时其形态的变化规律进行了深入的讨论,并提出了处理策略,为有效地提高系统的翻译质量提供了有益的方法和思路.
2.HNC理论下对'得'的理解和处理
- 熊亮
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文从语句理解处理的角度出发,运用HNC理论的语言表述模式,对"得"字的各种意义和用法进行了探讨,考察了各义项在真实语料中的分布情况,并提出了对"得"的处理策略.
- 得;
- 特征语义块;
- 句类;
- HNC;
- 现代汉语;
3.汉英双语短语信息数据库的构建
- 吴云芳;常宝宝;詹卫东
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文扼要介绍了一个汉英双语短语信息数据库的构建情况:汉语短语的描述信息;英语短语的描述信息;描述中的疑难问题;短语库的实施和应用.短语库是综合型语言知识库的有机组成部分,它的建设将为短语结构研究、句法分析和机器翻译提供强大的语言知识支撑.
4.迭代策略和词典相结合的机器翻译词典获取
- 刘晓月;杨沐昀;赵铁军
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：翻译词典对于跨语言信息检索、计算机翻译等许多领域具有重要意义.为了解决基于汉英双语语料库的翻译词典获取问题,本文首先比较了四种常见的基于共现信息的词汇对译关系计算模型,并以对数相似性模型为基础,设计了一种迭代策略和词典相结合的汉英机器翻译词典自动获取的方法.初步实验表明,该方法的确能够提高翻译词典获取的正确率和召回率.
5.信息技术领域术语字频、词频及术语长度统计
- 李芸;王强军
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文对两本信息技术术语词典中的术语的用字、用词、术语长度等进行了统计,并做了比较分析.另外,还对术语系统的经济指数等做了一些初步的探讨.
6.基于语料库的现代汉语新词语动词语法特征的研究
- 颜伟;亢世勇
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文以《现代汉语新词语信息电子词典》的已有成果为基础,以大规模真实语料的统计数据为依据,用统计数字来描述动词的各项语法属性,说明新词语动词的特点.
7.因特网语料自动下载分析软件的设计
- 朱凯;周杰;何婷婷
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：随着计算机应用的发展和普及,特别是因特网的普及,获取语料、建立大规模语料库变得越来越容易.本文讨论了如何从因特网上下载语料,如何解析HTML页面并提取出其中对语料库有用的语料数据的方法.
8.《人民日报》1998年语料库中若干基本语言数据的统计与分析
- 胡景贺
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文汇报了对"北京大学计算机语言所1998年《人民日报》语料库"半年语料的统计分析工作.其中统计了语料库中的词频、词在词类上的分布、词类的二元和三元共现、词与二元及三元词类的共现、各种共现在句子首尾端的边界分布.本文还对上述统计结果进行了分析,着重讨论了高频词语词类的分布以及句子的边界情况.这些结论对于该语料库的全面分析提供了重要的基础数据.
9.基于加权概念网络的用户兴趣建模
- 许欢庆;王永成;孙强
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：用户兴趣建模是互联网个性化信息服务的关键技术.本文中,提出一种基于加权概念网络的用户兴趣建模方法.该方法利用动态学习算法,挖掘蕴含在用户反馈文档中的概念及其概念关系,建立加权概念网络的用户模型,从而捕捉和表述用户兴趣偏好.基于加权概念网络用户兴趣模型,提出了检索提问个性化理解,以及文档个性化重评价的实现方法.为了检验提出方法的建模性能,设计了信息过滤仿真试验.测试结果表明:加权概念网络有较好的用户建模性能.
10.语料库的数据管理方式的研究
- 何婷婷
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文全面总结了语料库的几种数据管理方式,分析了各自的长处和不足,可以供语料库建设研究者参考.本文还提出了开发通用语料库管理系统的思想,讨论了通用语料库管理系统应该具备的功能,设计了通用语料库管理系统的体系结构,这种设计思想对于其他的文本数据库的建设也有实际意义.
11.基于双语语料的单个源语词汇和目标语多词单元的对齐
- 陈博兴;杜利民
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：多词单元包括固定搭配、多词习语和多词术语等.本文提供了一个基于双语口语语料库的自动对齐单个源语词汇和目标语多词单元的算法,算法一方面通过计算对应于同一个源语词汇,多个目标语词汇之间的互信息和t值的归一化差值的大小来衡量目标语多个词语之间的关联程度以提取多词单元,另一方面通过计算互信息和t值的平均值作为多词单元和单个源语词汇之间互为相互翻译的衡量程度,用局部最优、首尾禁用词过滤以及长词优先等策略很好地解决了这个问题.另外,对短语翻译词典的分级,有效地减少了高级别词典中非正确翻译项的数目,使得翻译词典具有更好的实用性.
12.语音合成技术的现状及发展前景
- 沈晋苑
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：语音合成技术(Text To Speech)是中文信息处理领域的一项前沿技术.本文介绍了从采用参数合成方法到基音同步叠加,语音合成的研究运用了基于语音数据库的语音合成方法和运用大量的统计和规则的方法,使之较好地解决了三个大的处理环节:特殊符号处理,分词处理和拼接处理;一定领域内实现了中英文混读的高自然度和高流畅度.而使用数据驱动模式生成自然语音的技术,基于新的韵律结构分析和语音建模技术,采用了分散式语音识别和语音合成技术,使得系统的语音合成更流畅、更平滑、更自然.语音合成技术在现阶段已经取得了长足的发展,但是由于还处于技术研究开发的初级阶段,因此还存在着许许多多急需解决的问题.基于语音数据库的语音合成方法有望进一步提高语音合成的自然度;近年来提出的基于LMA(对数振幅近似)技术的语音合成器,Hybrid Harmonic/Stochastic模型,Sinusoidal模型等已被证实是一些新颖的能合成出高质量语音的参数合成方法,为此应继续深入这方面的研究,以期在参数合成技术上取得突破;为了适应社会的需求,扩大文语合成的应用场合,既要求要提高语音合成的质量,又要降低语音合成的复杂度;多语种的文语合成以及多方言文语转换,需求共用一种合成算法或语音合成器,必须有新的思路.本文从计算机模拟人的大脑神经活动系统的功能,把人大脑活动中枢对声音信息的接收、加工分析、传递等功能与计算机应用结合起来,提出基于认知解释的计算分析使语音合成语法规则具有可操作性的思考:即把计算机语音的信号编码基于韵律的音素重组和连接,运用电位信号的自然脉冲输送方法,并采用一定的数据算法来实现语流的平滑度、流畅度和自然度.这也许是一种可实现的计算途径.自然语言是一种基于"声音—听觉识别"的信息系统,人耳能清晰地加以分辨的声音元素(即音素,phone)不过五十个左右,但它具有很大的能产性.我们在语音合成中借助语言信息的编码原理,既可降低数据库的开销,又可实现语言表现力的丰富.方言在很大程度上也是原型范畴,是人们根据不同方言点之间在语音、词汇和语法等方面各种程度不同的相似性而概括出来的基于原型的语音相似性分类.我们可以根据边界模糊性、相似性与原型规则,来达到语音合成的合理运用.最后,本文就语音的无序性和规则性、瞬时性、记忆功能和遗忘筛选、基于声音的数据库链接阐述了自己的一些思考.展望未来,由于国际国内语音合成技术的不断取得突破,我们不难想象未来的语言世界,语音合成与语音识别、语音翻译的共同运用将使人类步入一个崭新的领域去生活.
13.语义校对系统中的句子语义骨架模糊匹配算法
- 郑逢斌;姜保庆;陈志国;郭拯危;乔保军
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文给出了用句子语义骨架表示句子语义的具体方法和表示形式.在语义校对系统中建立了这种形式的知识库,每一个知识条代表描述同一个事件的不同句子的共同特征.采用模糊匹配方法计算语句的相似程度.
14.基于混合策略的汉语未登录词整体识别
- 于传武;李生;陈鄞;赵铁军
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：未登录词的识别一直是汉语分词研究的焦点和难点,本文通过对各类未登录词的用字频率及上下文进行了详细地分析,提出一种基于混合策略的未登录词识别方法.实验表明,该方法对于多种未登录词的整体识别取得了较好的结果.
15.从「悬、挂、吊」看现代汉语近义词的区辨
- 吴欣达
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文以中央研究院词库小组所完成的「研究院语料库(Sinica Corpus)」为语料,分析「悬」、「挂」、「吊」这一组近义词.藉由观察这三个词个别的出现分布与句法表现,抽离出区隔这三个动词的关键语意成分.我们发现事件焦点(event focus)在这一组动词的区分上扮演着重要的角色.分析显示,这三个动词的语意都可以表现在使动结构(causative construction)上,而三者的区分就在于它们各自表示这个结构不同的组成成分.「悬」倾向于以使动句构中的下位事象(subevent)为焦点,「挂」则可涵盖整个使动结构,而「吊」则偏向于将焦点集中在使动句构中的上位事象(superevent)的部分.由这一组近义动词的表现,证明在事件结构的分析上,「事件焦点」这个概念,在区分动词语意时,有一定的重要性.
16.面向中间语义表示格式的汉语口语解析方法
- 解国栋;宗成庆;徐波
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：口语解析在人机对话系统和口语翻译系统中的作用是十分关键的.本文提出了一种统计和规则相结合的汉语口语解析方法,解析结果是一种中间语义表示格式.该方法分为两个阶段.首先,采用统计方法,解析了解输入句子的语义信息,然后,利用规则,将这些语义信息映射到中间语义表示格式.试验证明,此方法具有较强的鲁棒性,而且避免了完全用规则方法解析的一些弊端,达到较高的解析正确率.
17.基于格助词和接续特征的藏文自动分词方案
- 陈玉忠;李保利;俞士汶;兰措吉
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文结合藏文各类形态特征,首次提出了一种基于格助词和接续特征(BCCF,Based on Case-auxiliary word and Continuous Feature)的书面藏文自动分词方案.其总体技术特点是:在格助词、接续特征、字性知识库以及词典支持下,进行逐级定位的确定性分词.初步测试表明:这一方案在发现和消除切分歧义、解决未登录词问题,进而在提高藏文分词精度方面具有很高的实用价值.
18.中文文本聚类的研究与实现
- 张宝艳;王庆辉
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：在文本聚类中,聚类的最终结果应该是一棵树的形式.然而,随着互联网的普及,面对海量的电子文献,学科分枝的越来越细化,树的分枝粒度越来越小,逐层聚类必然会花费巨大的时间.本文讨论并提出了针对特定领域扁平聚类和分层聚类相结合的思想,并且对于文本预处理和具有较强实用性的ISODATA扁平算法给出了VC++的实现.
19.基于遗传算法的定题信息搜索策略
- 许欢庆;王永成;孙强
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：定题检索将信息检索限定在特定主题领域,提供主题领域内信息的检索服务,它是新一代搜索引擎的发展方向之一.定题检索的关键技术是主题相关信息的搜索.本文提出了基于遗传算法的定题信息搜索策略,提高链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围.同时,借助超链Metadata的提示信息预测链接页面的主题相关度,加快了搜索速度.对比搜索试验证明了算法具有较好的性能.
20.基于兴趣模型的WEB信息预测采集过滤方法
- 李振星;徐泽平
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：Web网上海量信息急速膨胀使得有效定向采集相关信息检索成为网上信息查询一个日益重要的研究方向.本文提出一种基于用户兴趣模型的Web文本信息预测采集过滤方法.这种方法根据正反集文本过滤方法,设计出一种用户兴趣模型,并在对Web站点结构进行分析的基础之上,通过对网页的相关度的预测来控制信息的采集.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源.
21.偏重摘要及其实现技术
- 刘功申;胡佩华;岳奕;王永成
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：偏重摘要系统是一个非常有意义的研究课题.本文实现了用于概念扩展的概念库,并以此为基础提出了偏重摘要系统的实现方法.在偏重摘要的生成过程中,讨论了主题相关加权和偏重相关加权,并且通过一定的策略选取句子形成最终摘要.实验证明,系统对绝大部分文章都能做出既满足用户偏重要求,又能在一定程度上反映全文主题的摘要.
22.句子相似度计算在FAQ中的应用
- 王洋;秦兵;郑实福
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文设计并实现了一个基于常问问题库的中文问答系统.对用户以自然语言输入的问题,该系统能够自动地在FAQ(Frequently-Asked Question)库中寻找候选问题集,通过计算句子相似度,将匹配的答案返回给用户.该系统还能够自动地更新和维护FAQ库.文中着重介绍了用于查找候选问题的数据结构以及句子相似度的计算方法.
23.一个特殊句法结构的英汉句类转换
- 张克亮
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：It+be/v.+NP/AP/PP+that-clause...是英语中一个常见的句法结构.这个结构有两种用法:一是强调句,二是带形式主语it的句子.本文针对目前HNC语料标注存在的问题,提出两个能够反映英语语言个性的语句模式,并以此对采用上述句法结构的英语语句及其对应的汉语译文进行HNC标注和句类转换分析.
24.汉英机译系统ICENT中主语省略句的处理
- 马红妹;齐璇;王挺;陈火旺
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：汉语中主语省略现象十分普遍,汉语主语省略句的处理对于汉英机器翻译十分重要,它需要基于篇章上下文语境进行分析,包括省略主语识别和省略主语恢复.本文首先介绍了汉英机译系统ICENT的句法语义分析,然后建立了汉语篇章上下文语境模型,制定了主语省略恢复规则,给出了基于汉语篇章上下文语境应用主语省略恢复规则恢复主语省略的算法,最后对小学语文课本实际语料进行了实验.
25.雅信CAT和东方快车机器翻译软件的分析及建议
- 刘彬;谭外元
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文叙述了雅信CAT-2.5简体英汉双向版(网络版)和东方快车3000英汉翻译软件对源语的切分以及由源语向目标语转换的过程.认为使用上下文无关语法,并把词作为转换单位的程序设计,不能得到较理想的译文.建议以动词为中心的小句为切分单位,采用依存语法,以提高译文质量.
26.代词'他'的虚指用法及产生原因——兼论'V他+……'结构的特征
- 张蕾
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文考查了"他"字的虚指用法,并根据"他"语义的语法化程度将其区分为虚指和虚用两种类型.分析了这一现象产生的原因,认为这主要是在"他"字自身的语义特点、"V他+……"结构模式及结构的韵律特征三方面因素的影响、促动下发生的,并归结出几条判定依据.兼及了"V他+……"结构的特征.
27.基于HNC理论的汉英机器翻译策略研究
- 张克亮
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：近十几年来,世界范围内出现了机器翻译的又一次热潮,各种新思想、新理论、新技术、新方法不断涌现,许多机器翻译系统相继从实验室走向了市场.但现有机器翻译系统的汉英翻译水平还远不能满足人们的要求,其主要原因在于缺少一种功能强大的自然语言理论的支持.本文阐述HNC理论的机器翻译思想,探讨基于该理论的汉英机器翻译的策略,包括:(1)先理解,后翻译;(2)核心调控,宏观和微观相结合;(3)多策略的综合运用;(4)人机交互功能;(5)自学习能力;(6)自知之明.
28.基于数据库的现代汉语新词语缩略语的研究
- 鲍明凌;亢世勇
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：我们利用成熟的关系数据库,描述现代汉语新词语中的缩略语与其相关属性的二维关系,建立了新词语缩略语信息数据库,在此基础上进行统计,对新词语缩略语的各个方面进行了研究.
29.信息技术领域术语提取的初步研究
- 王强军;李芸;张普
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文对信息技术领域术语自动提取方法进行了实验,提出了领域相减的术语提取方法,即根据流通度理论,利用术语在不同领域中的不同流通度值进行术语提取.评价了领域相减法在术语自动提取中的作用.
30.CCD构造模型及VACOL辅助软件的设计与实现
- 刘扬;俞士汶
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：作者依据自己在北大计算语言所CCD(Chinese Concept Dictionary)项目的工程实践,提出了CCD的构造模型.该模型强调双语词典(Bilingual Lexicon)构造中的继承(Inheritance)和转换(Transformation)的思想,希望从现有WordNet的英语单语词汇语义信息出发,通过词典编篡者的翻译和可视化操作(Visualized Operations),逐步实现由WordNet到CCD的计算性转换(Computational Transformation),自然地得到一个汉英对应的双语语义词典,从而大幅度提高此类词典编篡的质量和效率.针对该构造模型,作者设计并实现了一个可视化的辅助词典构造软件VACOL(Visualized Auxiliary Construction of Lexicon),该软件目前在计算语言所已得到大规模的应用.作者阐述了VACOL软件的设计原理,对其中涉及的一些关键算法和技术,如WordNet词汇语义信息抽取、数据敏感的树结构建立及其可视化操作等,也简要做了介绍.
31.基于TFIDF的专业领域词汇获取的研究
- 刘桐菊;于浩;杨沐昀
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：针对目前专业词典的建设中如何获取专业词汇这一问题.本文采用了TFIDF算法求加权词频,按词频高低确定专业领域词汇的方法,并针对这一思路给出了在体育领域内研究的样例,同时对这一设想作了预期评估和展望.
32.一种基于聚类的汉语词语知识的获取方法
- 李盛;杨尔弘
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：在自然语言处理中,知识的自动获取一直是一个核心问题.但如何实现知识的自动获取呢?本文在基于实例的学习方法(Example-Based Learning,简称EBL)的基础上,提出了一种基于聚类的汉语多义词知识的自动获取方法.实验结果表明,用该方法获得的知识对汉语的词义排歧是有效的.
33.基于数据库的新造词语的构词法研究
- 徐艳华;亢世勇
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：我们利用成熟的关系数据库,构造了新造词语构词法信息库,在此基础上进行分类归纳统计,总结了新造词语的构词规律,为中文信息处理未登录词的识别提供了一个基本依据.
34.动态记忆结构与HNC的语境研究
- 韦向峰
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文简要介绍了R.C.Schank的动态记忆结构,详细阐述了HNC语境的定义及HNC语境的三要素:领域、情景和背景,并且给出了HNC语境形式化表述的具体例子和方法,最后通过对比动态记忆结构和HNC语境,指出了两者的异同.
35.基于概念的自然语言处理
- 马颖华;苏贵洋
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：基于"概念"进行自然语言处理是近期的研究热点.本文在分析近几年概念的研究成果和经验基础上,从统计模型和概念词典两个方面对基于"概念"的自然语言处理进行了总结,并分析了现存的问题,以及未来研究的方向.作者提出对于"概念"的研究应重视其主观性的一面,并从"概念"自身的规定性出发,逐步规范"概念"在语言学中的定义,从而理清应用"概念"作为语言处理基本单元的处理思路."概念"作为语言表义(完整意义上的主义)的基本单元,它的内涵和外延都表现为知识.而知识的表达与描述正是人工智能中的难点.随着"概念"在语言处理中越来越广泛的应用,解决这个难点将越发迫切,应得到更多的关注和重视.
36.黄曾阳先生语料库思想概述
- 池毓焕
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文是写作中的《HNC语料库语言学》之第一章略加修改而成,全面介绍了黄曾阳先生关于建设HNC语料库的设想,重点阐述了语料库建设必须接受语言学理论指导的思想.
37.一种新的针对汉语TTS的韵律词自动切分方法
- 李小明;易立夫;杨静;孙金城
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：以往的语音合成中,分词单位多为词典词,而这种分词单位所形成的韵律信息与TTS所需的韵律信息常不符合.本文针对TTS系统的需要制定了韵律词的标准.分别利用基于规则的方法和基于机器学习的方法对实际文本进行了韵律词级别的自动切分,讨论了韵律词自动切分的前景和难点.
38.中文信息处理开放平台的设计
- 刘群;张浩;白硕
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：我国的自然语言处理研究,在很大程度上处于一种低水平重复状态,由于缺乏一些公共的基础设施,很多研究工作都要花费大量的精力从底层模板做起,造成研究工作难以深入.本文提出,可以将开放式的开发模式应用于自然语言处理领域,并给出了一个面向中文的自然语言处理开放平台的设计.这个平台能够共享代码、语料、语言知识库等资源,并支持协作开发.这个平台的上层管理采用项目方式,实现了资源的重复利用.随着参与者的增多,和项目的发展,这个平台一定会为中文信息处理提供大量的资源.
39.现代汉语'被'字句的HNC分析
- 柯航
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：传统语言学将"被"字句大致分为两种结构:甲.NP+被+NP+VP;乙.NP+被+VP,并作了相应的语言特征分析.本文在这个分类的基础上,运用HNC理论的概念表述模式和句类知识对"被"及"被"字句进行再分析,认为在两种不同的结构中,"被"字都是语言逻辑概念,表述为101,即作用者语义块的标志符.但是从作用效应链来看,两种结构的"被"字句在表达上存在角度差异.甲类是从作用角度进行描述的,因此相关的句类属于广义作用句,包括作用句、转移句和判断句;乙类主要是从效应角度进行的描述,故而相关句类多为效应句,只有少量的广义作用句为了保持语义的完整也归入其中.两类结构在句类格式上也各有特征,一般甲类为规范格式,乙类为基本格式.这些格式特征为计算机识别语义块提供了有效的信息.本文认为乙类是表述角度从作用到效应的过渡形式,其中的"被"字即是残留标记.除以上两种结构外,本文还指出语义块JK1之前的"被"字是冗余标记,不影响句类分析.本文还尽量揭示了各种句类的"被"字句的句类信息,希望能够为计算机识别"被"字句的相关句型提供一定的知识.
- 被;
- "被"字句;
- HNC;
- 标志符;
- 现代汉语;
40.结构上下文相关的概率句法分析
- 张浩;刘群;白硕
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文研究了PCFG独立性假设的局限性,并在PCFG的基础上提出了三个逐层递进的与结构上下文相关的概率句法分析模型,它们考虑了分析树当中每个派生节点的结构上下文条件.为了更好地说明方法本身的问题,我们在宾州中文树库和一个短句树库上都进行了实验,文中给出了横向和纵向的对比实验数据.结果表明,系统地将结构上下文条件引入的做法以很小的代价提高了概率句法分析器的性能,值得推广和深入研究.
41.汉语分词及词性标注自动校验方法研究
- 钱揖丽;张虎
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：大规模的标注语料库是语料库语言学发展的重要基础.随着许多科学研究的进一步开展,我们对语料的加工质量提出了更高的要求.本文采用基于上下文搭配的规则和统计相结合的自动校验方法,对机器切分标注语料进行处理,并把自动校验过程中获取的信息,应用于语料库的构建,即采用滚动式的方法,建立大规模的、具有更高加工质量的标注语料库.
42.汉语组合型切分歧义字段消歧方法研究
- 廉竹钧
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文提出如下的汉语组合型切分歧义消歧策略:对分、合两种切分形式分布比较均匀的组合型切分歧义字段采用决策表算法消歧;对分、合两种切分形式分布悬殊的组合型切分歧义字段采用人工规则+默认切分形式的方法消歧.本文选择22个典型的组合型切分歧义字段作为实验对象,其中17个分、合分布均匀的,5个分、合分布悬殊的.开放测试的结果是:前17个和后5个的平均准确率分别为87.82﹪和97.70﹪.
43.基于大规模语料库的英语从句识别
- 黄玉;李生;孟遥;丁华福
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：英语从句识别对于英语复合句的分析至关重要.本文基于Penn tree bank语料库,通过分析从句的组成规律,利用统计规则,通过分析从句的结构,从句在主句中的位置以及与主动词的关系来识别从句的左右边界,在识别的过程引入了关键词,并考虑到从句嵌套的问题.测试结果表明,句首的封闭测试精确率和召回率分别为91.06﹪和94.07﹪,开放测试精确率和召回率分别为82.13﹪和85.05﹪.
44.词性标注规则的获取和优化
- 陈文亮;朱靖波;吕学强;姚天顺
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文提出一种词性标注规则自动学习算法.通过对规则进行评价、优化,有效提高标注正确率和标注效率.系统对PFR标注语料库(98年1月)进行标注,相对于NA假设的词性兼类消歧模型标注结果,封闭测试正确率提高了5.53﹪,开放测试提高了4.57﹪.
45.'才'字句的句法语义分析
- 王楠
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文结合"才"字句的基本句式,考察了副词"才"的句法组合功能,并着重分析了"才"的四种基本语义.指出这四种基本语义可以两两地归并为"表示事物的量"和"表示限定/排他"两种语义.并在此基础上进一步地归纳出副词"才"的深层语法意义——表示说话者对比客观事实与主观标准后作出的倾向性评判.
46.基于百科词典的知识获取系统的研究与实现
- 许勇;宋柔
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：从各种自然语言文本中获取知识是自然语言处理技术的重要应用.本文描述了从百科辞典文本中获取知识的探索性的研究工作,介绍了一个实验性的,限定范围的百科辞典知识获取系统.具体工作包括:利用分词工具进行初步的词条分类;在词条分类的基础上,对处理范围内的词条文本进行观察,以人工方式归纳其中目标知识的基于语义特征的模式规则;利用YACC工具对模式规则进行解释,进而抽取目标知识.文中给出了试验结果及分析.
47.红楼梦人物关系问答系统
- 王树西;刘群;白硕
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：论文在分析专家系统起源、发展,现有理论技术的基础上,采用自然语言问答的人机交互方式,搭建了《红楼梦人物关系问答系统》,对专家系统现存的问题进行了有益的探索.测试结果表明,该系统知识完备,表示方法及组织方法适当,求解问题质量高,人机交互便利,效率高,可维护性好,解释能力强.
48.一个简单人机对话系统的实现方法
- 胡凤国
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：本文主要谈的是我们在进行一次人机对话实验过程中的实际做法和遇到的困难,以及采取的解决办法.在内容上详细介绍了这个实验模型的实现策略,在某些特定环节上提出了自己的观点.实验中对HL模型进行了开放测试,共实验了100个句子,正确率92﹪,结果基本上是令人满意的.
49.日汉机器翻译系统中的多Agent研究
- 张捷;陈群秀
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：机器翻译系统提高译文质量是一个关键性的难题.本文探讨如何在多方法的机器翻译系统中引入多Agent组织结构,并提出一种多层次多Agent组织结构-类工程组织结构,使用登记表通讯策略.该组织结构应用在多翻译方法的日汉MTS中,使翻译质量有了较大的改善.
50.汉英翻译中主辅变换的类型
- 雒自清;张艳红
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：汉英翻译中的过渡处理包括六个环节"两转换、两变换、两调整",语义块的主辅变换是两变换中的一种,本文通过对大量真实语料的标注、分析,初步总结出了几种变换的类型.
51.信息过滤技术研究
- 毛颖;周源远;王继成
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：随着web的普及,信息过滤技术得到越来越广泛的应用.本文介绍了基于内容和基于协作的两种不同的过滤方法;描述了信息过滤中的关键技术,包括用户兴趣文件的表示、建立、维护和相似度比较.
52.信息时代的语言问题(代序)
- 李宇明
- 《第一届学生计算语言学研讨会》 | 2002年
摘要：信息化的飞跃发展在世界范围内形成了数字鸿沟,数字鸿沟带来了语言间更大的不公平,并威胁着许多语言的生存,我国的信息化正在快步追赶世界先进水平,这为汉语在信息化时代的生存与发展提供了良好的基础.