首页>中文会议>工业技术>自动化技术与计算机技术>全国第八届计算语言学联合学术会议

全国第八届计算语言学联合学术会议

召开年：2005
召开地：南京
出版时间：

主办单位：中国中文信息学会;中国计算机学会;中国人工智能学会;北京市语言学会

会议文集：自然语言理解与大规模内容计算

会议论文

热门论文

全部论文

最新会议

更多>>

全选（0）

共125条结果

1.特定领域专家主页信息的自动抽取
- 李芳;盛焕烨
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文介绍了领域专家主页信息自动抽取研究的背景和具体实现的方法.由于网上信息的动态性,中文计算语言学虚拟信息中心需要不断的更新,自动维护可以节省大量的人力和物力.基于这样的研究背景和目的,我们实现了一个计算语言学专家网页信息的自动抽取实验系统.它主要由三个部分组成:自动搜索个人网页、基于关键字自动判断专家网页,基于规则自动抽取网页上的个人信息,如,姓名、单位、电话、研究方向等.实验系统的目的是实现数据库专家信息的自动维护和自动扩展.初期实验显示了可喜的结果,但还需要进一步的完善和研究.
2.智能Web信息检索相关研究
- 马亮;陈群秀;谭伟
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文介绍了近期在Web信息检索领域所进行的研究工作.首先,在自适应文本信息过滤研究中,采用了基于多次反馈的增量学习机制来构造过滤模型,并在模型自适应学习过程中引入特征衰减等调节因素.相应的试验系统在相关的国际比赛中取得了良好的成绩.另一方面,针对搜索引擎中用户查询结果存在的兴趣倾向性问题,进行了潜在兴趣点的主动检测研究,通过用户的初次查询结果自动分析用户可能的兴趣点,并进行查询优化,从而进一步提高了查询结果的用户满意度.
3.进一步加强汉字规范笔顺的规律性
- 张小衡;苏咏昌
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：汉字笔顺规范是语文现代化建设的一个基础项目.本文以GB13000.1大字集在信息处理实践中遇到的问题为依据,结合实例对现行笔顺规范的规律性问题从部件、笔组、字形和结构等方面展开分析讨论,并提出一些解决方法.汉字笔顺应该以字形为依托,尽量做到相同的部件、笔组或结构具有一致的笔顺处理措腚施.文章还提出了"规则→部件→字集"三级笔顺规范描述体系,以进一步方便笔顺的学习、应用与计算机处理.
4.查询相关链接分析算法优化策略研究
- 刘悦;张刚;王斌;许洪波
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：在通用搜索引擎返回的众多结果中,用户更关注的是与查询高度相关的那些网页的集合,而通过链接分析算法,特别是与查询相关的链接分析算法能够很好满足用户的这种需求,目前常用的查询相关链接分析方法有进一步改进的余地.本文提出了两种优化的策略:一是采用降低噪音影响的策略(QAH1&QAH2),一是采用过滤掉噪音的策略(QAH3&QAH4),并将两策略有机地结合起来在TREC的封闭数据集合上进行测试,取得了很好的结果.
5.基于多策略优化的分治多层聚类算法的话题发现研究
- 骆卫华;于满泉;许洪波;王斌;程学旗
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：话题发现与跟踪是一项评测驱动的研究,旨在依据事件对语言文本信息流进行组织利用.自1996年提出以来,该研究得到了越来越广泛的关注.本文在研究已有成熟算法的基础上,针对其不足,提出了基于分治多层聚类的话题发现算法.基于该算法的系统在TDT4中文语料上进行了测试,结果表明该算法属于目前结果最好的算法之一,并显著降低了算法的时间和空间复杂度.
6.基于向量空间模型的规则分类技术
- 孙丽华;肖诗斌;施水才
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文探讨了一种基于向量空间模型的规则分类技术,其基本思想是:首先人工为每个类确定一组或n组关键词,并赋予一定的权重,每组关键词代表一条规则;分类器根据给定的每组关键词及权值信息形成规则向量,规则向量包括权值向量和距离向量两部分,最后分类器计算规则向量与文章向量的相似度,来确定文章所属的类别.该方法可以较好地满足分类条目之间交叉很大时的分类需求.
7.生物医学文献中的隐含知识发现
- 杨志豪;林鸿飞
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：当前出版的医学信息呈指数级增长,给在生物医学文献中应用文本挖掘技术进行隐含医学知识发现提供了前所未有的机会.本文对隐含医学知识发现的研究内容、研究成果进行了阐述,并设计和实现了一个生物医学领域的隐含知识发现系统.该系统对医学文献记录中的医学主题词MeSH及自由文本中的医学概念同时进行相关概念提取,弥补了只使用其中一个的不足,提高了获取相关概念的效果.同时基于UMLSKnowledgeSources,进行基于概念的查询扩展,提高了相关记录的召回率,并通过语义过滤,降低了搜索空间.
8.搜索的未来
- 陈沛
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：互联网的迅猛发展使搜索引擎成为必不可少的工具,它能帮助人们在浩瀚的信息海洋中方便快捷地获取众多的信息服务.同时互联网正在提供庞大和丰富的语料资源,为中文技术研究提供强大助力.本文首先通过对各代搜索引擎,特别是中搜网络猪的介绍,揭示了搜索引擎正在从内容、形式和搜索范围等方面发生巨大的演变.接着以实例显示了代表搜索未来的网络猪因其搜索方式的改变,极大地改善了用户的搜索感受.最后基于中国搜索的搜索引擎结构框架的分析,说明搜索引擎作为互联网上庞大的实时服务平台,正在从较专一的检索服务平台向互联网综合信息服务平台演变,同时中文搜索引擎系统正在成为各种中文技术的研究与应用平台.
9.基于HMM的农作物信息抽取
- 菅小艳;郑家恒
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文以因特网(中国北方农业信息网等网站)上的种子资源作为语料资源,采用聚类的方法,生成训练语料,得到领域的主题集:通过训练主题和主题之间的关系,建立了针对水稻农作物的HMM模型.利用viterbi算法为未标注文本中的小句标注主题,根据主题抽取农作物信息.经测试,结果比较满意.
10.带后缀'者'的派生词识别
- 冯敏萱;杨翠兰;陈小荷
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：通过对1200万字语料的统计得出,派生词约占词条总数的8.66％,构成派生词的词缀共有188个.其中,后缀"者"所构成的派生词词条数最多,构词成分最为复杂.采用基本词表、词例知识规则并结合词语的搭配、共现频率的混合策略对带后缀"者"的派生词进行了自动识别,封闭测试的精确率为93.06％,开放测试的精确率为82.40％.
11.应用支持向量机进行中文分词
- 任飞亮;石磊;姚天顺
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文首次使用SVM方法来完成中文分词的任务,使用上下文窗体属性和基于规则的属性对样本进行刻画.在实验中我们发现上下文窗体的长度及多项式核函数的参数d对实验性能影响很大.选取较多的上下文信息并不能使分类效果提高,在一定程度上还会影响分类性能:同样,设定不同的多项式核函数参数d一样会影响分类效果.通过不断调整上下文窗体的宽度及多项式核函数的参数d我们最终取得了很好的实验结果.
12.组合中文词义消歧
- 秦颖;王小捷
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文介绍了一种新的组合词义消歧法,该算法利用两种基本的分类算法构造了一个二级分类器.在Senseval3中文词汇样本任务的训练语料上进行了比较评测,结果表明,该组合分类器的性能优于基本NaiveBayes分类器和EnsembleNaiveBayes分类器,且对于上下文窗口的选择具有较好的鲁棒性.本文还进一步分析了组合分类器参数设置对该算法性能的影响.
13.用户行为分析在网络信息检索中的应用概述
- 刘奕群;张敏;马少平
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：在网络信息资源持续膨胀的情况下,用户行为分析已经成为网络信息检索研究的重要热点.用户行为分析不仅对改进信息检索算法指出有益的方向,而且事实上已经成为任何一种成熟的网络信息检索评测方案不可缺少的一部分.本文试图从改进检索算法以及评测检索效果两方面对用户行为分析的研究情况进行概述,并对用户行为分析在网络信息检索中的应用做出展望.
14.基于语境计算模型的词义消歧
- 曲维光;董宇;陈钟;陈小荷
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文提出相对词频的概念,据此建立起语境计算模型,利用歧义字段前后语境词语相对词频信息对多义词进行消歧.以"黄色"和"黄金"为例进行实验,封闭测试精确率分别达到99.41％和98.93％,开放测试精确率分别达到96.37％和96.81％.试验结果证明该方法的有效性.
15.现代藏语动词的句法语义分类及相关语法句式
- 江荻
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文突破了传统藏文文法关于动词分类的简单描述,建立起以句法语义为纲要的动词类别和相关句法规则.本文区分了藏语12大类动词,各类动词都有不同论元数量和不同句法性质的要求.因此,动词的句法语义类别划分能够较细致和全面反映各种类型藏语句式的语法结构框架,包括句子的语序、词格标记和句法助词.动词的句法语义分类结果可以直接应用于藏语语法信息词典的构建,是藏语计算处理的重要基础.
16.一种基于网站主页信息建立公司名称知识库的方法
- 邹纲;孟遥;于浩;西野文人
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：一个公司通常拥有多个名称,比如中英文全称和缩略名称等.这为中文命名实体识别、信息抽取等带来了很多困难.为解决这些困难,本文提出一种利用Web信息建立公司名称知识库的方法,该方法基于链接分析的假设,利用网站主页的特点,自动搜集主页周围的各种公司名称,建成知识库,并在这个知识库基础上开展一系列的应用.实验表明本文方法建立的知识库可以应用于公司名称的归一,名称的扩展等各个方面,对于公司名称的识别特别是缩略名称的识别也十分有效.
17.汉语框架语义分析系统研究
- 范开泰;由丽萍;刘开瑛
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文的目的是构建一个面向信息处理的形式化的汉语语义描述系统.这个系统以Fillmore框架语义学为理论基础,包含框架语义构造式和框架两个子系统,从而把句法语义的构造跟词汇语义信息联系起来,系统表示汉语语义.框架语义构造式包括基本构式和复合构式,我们归纳了150个汉语顶层框架的基本构式,各种句式的复合框架构式:初步构建了24个顶层框架,29个框架参与元素,并建立了框架之间的多种联系.
18.中文自动文摘系统的综合评价模式
- 卢冶;林鸿飞;赵晶
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：采用五种评测方法进行了文摘评价实验:文摘的可接受性评价、与"理想"文摘的比较、基于Q&A的文摘信息性评价、文摘的关联性评价和基于分类的评价.不仅验证了文摘系统所采用的技术的性能,更重要的是分析了影响文摘评价质量的因素.试验结果表明:不同参数对每一项实验的评价结果都有很大的影响.根据各项评价方法的特点,旨在发挥各项评价方法的优势,使用了一种基于综合评价理论的综合性评价方法,采用了线性加权模型,实现了对文摘系统的公正、全面、系统的评价.
19.基于多特征融合的句子相似度计算
- 赵妍妍;哈尔滨工业大学-IBM中国研究实验室;秦兵;哈尔滨工业大学-IBM中国研究实验室;刘挺;哈尔滨工业大学-IBM中国研究实验室;张俐;IBM中国研究中心;苏中;IBM中国研究中心
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：句子相似度计算在中文自然语言处理领域有着非常广泛的应用背景.本文通过对句子的深入分析,在分别对基于词特征,词义特征以及句法特征的句子相似度计算的基础上,提出一种基于多特征融合的句子相似度的计算方法.该方法通过对不同的特征加不同的权值来调节各个特征对相似度计算的贡献,从而使计算结果达到最优.该方法与其他方法相比,描述句子的信息更加全面,从而使句子相似度计算更加准确.
20.《人民日报》标注语料的初步统计分析
- 郭慧志;刘华;谢学敏;张普
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文介绍了作者在人民日报标注语料库分析上的一些经验,提供了相关的研究结果.采用统计技术对熟语料库进行研究,其目的是为了汉语的自动分析.统计结果表明,即使语料标注经过了人工干预,其标注不一致的现象仍然是存在的,而这主要是由于现代汉语词类研究这一传统语言学的难点造成的,采用统计学习方法进行自动分析只是权益之计,基于语料库技术对词类进行深入研究将是今后努力的方向.
21.从网络获取香港法律双语语料库
- 揭春雨;刘晓月;冼景炬;卫真道
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文报告作者从网上获取香港法律英汉双语文本,利用法律文本的原有体系结构和编号机制进行子段级文本对齐,并将对齐结果进行XML标注,构建双语语料库的工作.文章表述上述工作的基本方法和技术.最终获得的双语语料库有10.4M英语词和18.3M汉字,是香港法律最全面最权威的文本,对于经验型的机器翻译研究具有特别价值.此工作也为我们进一步从网上探索和获取更大规模的双语文本打下坚实基础.
22.面向自动句法分析的现代汉语'V+V'结构歧义研究
- 徐艳华;陈小荷;李斌;陈钟
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：词类知识的粗糙和不完备是影响自动句法分析的一个重要因素.本文以"V+V"结构序列为切入点,彻底按照词的句法功能对动词进行分类,句法功能完全相同才给以相同的标记.这样可以把同形异构格式转换为非同形格式,便于确定其内部的结构关系.研究表明,用这种方法对"V+V"序列进行消歧,准确率可达到85％.
23.以互联网为知识源的基于语段分析的交互式机器翻译技术的研究
- 张桂平;蔡东风;徐立军;尹宝生;陈建军
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文以互联网为知识源,从基于语段分析、人机交互机制建立的角度出发,针对目前机器翻译质量和效率等难题,提出了在互联网的开放资源中获取丰富的知识,并在语段分析的基础上,探讨了人机优势互补人机分工协作的交互式的翻译策略,并在英汉双向机器翻译系统中初步验证其有效性.
24.传媒语音语料库系统的设计与开发
- 胡凤国;邹煜
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文介绍了传媒语音语料库系统的设计与开发.使用的开发工具是目前在国外较为流行的语言学软件开发工具Tcl/Tk,以及与之配套的语音处理软件包Snack.本文结合传媒语音语料库标注工具的软件实现,提出用Tcl/Tk+Snack来开发传媒语音语料库系统的构想.
25.现代汉语多音词自动标音研究
- 王洁;荀恩东;罗智勇;宋柔
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：汉语多音词自动标音的研究可以为语音合成及汉语教学等领域服务.本文采用N元模型的统计方法对现代汉语中的多音词进行自动标音,通过引入相似词,采取"词形-相似词-词性"三步回退的策略,缓解了数据稀疏问题,实验结果说明这个方法是有意义的.
26.基于时空分析的线索性事件的抽取与集成系统研究
- 吴平博;陈群秀;马亮
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：信息抽取技术能够提供高质量的检索服务.本文面向网络新闻事件,对人们感兴趣的事件关键信息进行了抽取和集成.系统中采用了如下的方法、策略:(1)利用句型模板构造抽取规则,然后直接从经过时间短语和空间短语识别和规范化处理的文本中抽取事件信息,从而跳过了深层句法分析,降低了实现系统的难度;(2)利用事件的规范化的时空信息关联不同文档中的同一事件,进行事件合并;(3)文档发生事件转移时对文档进行事件切分,从而解决了文档内不同事件信息的归并问题.初步实验结果表明:本文采用的方法和策略是有效的,抽取结果达到了国内外事件抽取的先进水平,而线索性事件集成的研究则是一种创新尝试.
27.个性化Web信息采集系统PSearch的设计
- 吴丽辉;中国科学院研究生院;张凯;张刚;中国科学院研究生院;王斌
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：传统搜索引擎技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的用户个性化的需求.本文介绍了个性化Web信息采集系统PSearch的设计,重点分析了Psearch中用户兴趣个性化信息的获取、待采页面的选择和相关度的判定.实验结果表明,Psearch具有较高的采集准确率.
28.面向BBS的话题挖掘初探
- 邱立坤;程葳;龙志祎;孙娇华
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文提出一种在BBS环境下进行热门话题挖掘的算法.BBS以讨论为主的文体决定了同一话题的文章在词语向量上并不一定相似,单纯采用基于向量空间模型的聚类算法难以有效地完成话题挖掘的任务.因此,本文的话题挖掘在一般文本聚类算法基础上,应用BBS所特有的点击数、回复数进行热度排序,然后采用基于特征词提取的话题归并,从而挖掘出最受BBS用户关注的热门话题.这一算法充分利用了BBS互动性好的优势,克服了其内容乱、灌水多的缺点,取得较好效果.
29.面向商务信息抽取的产品命名实体识别研究
- 刘非凡;赵军;吕碧波;于浩;夏迎炬
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点.产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注.本文面向商务信息抽取对产品命名实体进行了定义,提出了一种基于层级隐马尔可夫模型(hierarchicalhiddenMarkovmodel)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统,在电子数码和手机领域均取得了令人满意的实验结果.
30.模式推理中的'图检索'算法
- 王树西;中国科学院研究生院;白硕;王斌;中国科学院研究生院
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：模式推理,又称为推理,是一个有着重要研究价值的课题.在问答系统的研究中,模式推理作为一种新的研究途径,具有较高的应用价值,也因此受到较高的关注和研究.在问答系统领域,模式推理方法提出的较早,但是在国内,目前相关的研究并不多,所以,本文就致力于解决这个问题.本文首先介绍了模式推理的相关定义、研究现状;然后给出了模式推理的模型和机制;并给出了模式推理的一个基本性质及其证明.在此基础上,重点给出了模式推理的算法--"图检索"算法.实验结果进一步表明,本算法可以有效的解决模式推理问题.文章的最后,介绍了本算法在中文问答系统中的具体应用.
31.基于互联网的汉语术语定义提取研究
- 张榕;宋柔
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文的术语定义抽取,在分析术语定义的语言学特征,进行硬匹配的基础上,通过将术语定义用词与人民日报用词进行对比,给出了词语和句子的定义隶属度这一概念,并且与向量空间模型有效结合起来,提出了一种术语智能匹配算法.实验取得了较好的效果,有效的解决了术语定义的提取问题.
32.面向文本分类的多类别SVM组合方式的比较
- 朱慕华;朱靖波;陈文亮
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：支持向量机是性能良好的二类分类模型,适用于处理文本分类问题.但支持向量机无法直接用于处理多类分类问题.本文考察了四种流行的多类支持向量机方法,包括one-against-rest,pair-wiseMax-Win,DDAG和sigmoid模型.在中英文两个数据集上将几种方法应用于文本分类进行了比较实验.实验结果表明,在本文所用的中文分类数据集上几种方法的性能差别不大,在英文数据集上差距较为明显.0ne-against-rest方法在两个数据集上都获得了最优的性能.
33.评述新闻报道或文章色彩-正负两极性自动分类的研究
- 邹嘉彦
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：任何一篇报道文章的作者对有关事情或人物都不免带有或多或少的正面或负面评述色彩,举简单的例子来说,把同样情况说成「节俭」或「吝啬」,把「半杯酒」说成「半杯满酒」或「半杯空酒」,或把同样的组织形容成「恐怖分子」或「自由战士」,就明显反映出褒贬的色彩. 在互联网信息爆炸的时代,能掌握媒体如新闻报道对一些重要议题的评论观点日趋重要,许多机构都已为此投入大量人力物力.目前,总结性评论观点的自动分类研究主要针对英文,并已取得了一定的成果.但对中文新闻报道的两极性自动分类研究才刚起步,而其重要性同样不可置疑. 本文尝试讨论一些与中文文本两极性相关的语言问题,并提出了一个实验性的标注方案,以及对人工分类和自动分类的性能效果进行比较分析. 首先,人工分类过程由数名受过训练的评分员来完成,他们使用从-5到+5的数字来表示每篇新闻报道的正面或负面两极性程度.评测语料包括600多篇文章,主要报道内容是关于2004年在美国和台湾地区所进行的总统选举的报道.所得结果显示,中国不同地区(北京、香港、上海和台北)对4位著名政治人物:克里John Kerry,布什George W Bush,小泉和陈水扁的看法有很大的差异. 本文介绍了一个对新闻样本做出两极性自动评分的系统,该系统吸收了以前预选出的两极性词条作为显著性(salient)语言成份,从而把文本里的段落分为显著及非显著两类.文中研究了文本里两极性词条的广度、密度和强度.广度表示两极性词条在一篇文章中分布的程度(可用段落或句子来衡量).密度表示两极性词条在有关段落中出现的疏密程度.强度表示词条的两极性强烈程度.本文还研究了广度和密度的潜在作用,它们能够提高自动分类与人工分类间的关联度.同时也把报道分成单一话题与双话题(如选举)报道,及探讨所需要的相应调整过处理方法.探讨的结果显示,双话题报道在政治选举中广泛出现,尤其是以新参选的后起之秀为话题人物的新闻报道.同时看到显著成份分布与相关的话题人物匹配可依有限度的窗口来进行,并以广度分析而得到初步分辨正负两极的满意结果.本文也探讨如何推进到自动分辨单一话题报道与双话题报道和计算正负两极的数值,以及这种双极性分类的更广泛挑战与用途.
34.语意网与中文信息化的前瞻:知识本体与自然语言处理
- 黄居仁
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：「语意网」(semanticweb)是未来网络发展的方向.而语意网技术中最重要的一环就是知识本体(ontology).我们讨论在未来网络时代,中文处理面临的挑战.特别是针对如何善用知识本体来表达中文系统化的内涵知识.简单介绍了以SUMO(SuggestedUpperMergedOntology)与词网(WordNet)为基础建立的中研院双语知识词网(AcademiaSinicaBilingualOntologicalWordnet,简称SinicaBOW).中研院双语知识词网建立的目标,就是提供中文知识本体研究的基础架构.这个知识本体与词汇知识结合的数据库,同时也是自然语言处理应用知识本体的依据.在这个基础上,本文介绍了汉字知识本体(Hantology),及唐诗三百首知识本体,两个特殊知识本体建构的研究实例.
35.词语兼类暨动词向名词漂移现象的计量分析
- 俞士汶;段慧明;朱学锋
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：<现代汉语语法信息词典>建立了面向信息处理的汉语词类体系并完成了8万词语的归类,进而分类描述每个词语的详细语法属性."大规模基本标注语料库"则对数千万字文本完成了词语切分和词性标注等基本加工.以北大计算语言学研究所拥有的这两项大型语言数据资源为基础,本文计量分析词的兼类问题,给出了一些词兼属不同词类的概率.基本标注语料库将在文本中承担名词功能的动词v标注为名动词vn,据此本文定量地考察汉语中一部分双音节动词向名词漂移的动态过程.
36.一个改进的汉语Chart句法分析模型
- 林颖
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：句法分析是自然语言处理和机器翻译的基础.线图(Chart)分析算法是目前常用的几个句法分析算法之一,而如何从Agenda中选择成分极大地影响了分析算法精确性.本文研究了汉语的特点,提出句法结构共现的概念,用以重新评定成分的权值,最后介绍一个基于PCFG的汉语概率最佳优先的Chart句法分析器模型.实验表明这种方法的确能够提高标记的精确率和召回率,值得深入研究.
37.基于隐马尔可夫模型和候选排序的汉语基本名词短语识别
- 马艳军;刘颖
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文利用隐马尔可夫模型(HiddenMarkovModel,简称HMM),并利用A*启发式搜索算法得出N-Best最优路径作为汉语基本名词短语标注的候选集.利用边界匹配和基本名词短语模板对候选集进行过滤,并利用基本名词短语模板的可信度信息对候选集进行重新排序,取得了不错的标注效果.本文的实验模型有较强的鲁棒性和可扩展性,能够通过不断添加不同领域的知识来提高性能.
38.配价语法与词汇-语法
- 郑定欧
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文讨论配价语法与词汇-语法理论上及方法论上的异同并通过个案示例指出词汇-语法能为描写语言学和计算语言学相结合提供一个有效的平台.
39.名词短语:槽类型与定语类型和中心词语义类型对应关系
- 张卫国;梁社会
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：论文考察了名词短语中槽关系类型与定语类型的对应、槽关系类型与做中心词的名词的语义类型的对应,并讨论了各对应关系的特点和趋势.论文认为这些对应的特点和趋势可以为建立计算机名词短语处理模型提供重要的基础.
40.汉语自动分词中的上下文相关歧义字段(CSAS)研究
- 侯敏;陈琼璜;初田天;李湛;王瑜;叶立
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：上下文相关歧义字段(CSAS)的处理是汉语自动分词中的难题之一.本文对收集到的CSAS逐个进行了研究,提出了"人脑认定+语料库验证"的提取方法以及基本词表、校正词表和规则库互动的处理手段,其中不相邻条件匹配的越过规则可解决统计方法难以解决的问题.测试结果表明,该方法是有效的.
41.相似词及其在计算机辅助校对系统中的应用
- 罗智勇;北京语言大学语言信息处理研究所;宋柔
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高.把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系并不能反映词语在线性邻接(ngram)特征上的相似关系,而且这种相似关系不能用作分类原则,因为它不满足传递性.为此,我们提出了一种解决方案:对于每个词,根据其在大规模语料库中的上下文分布特征,建立以该词为核心的相似词集合,用相似词的ngram估计核心词的ngram.本文介绍了相似词集合的确定方法,并介绍了这一方法在计算机辅助校对中的应用.
42.最大熵语言模型及其在模式识别中新的应用
- 方高林;于浩
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文提出了利用语言学分析的知识作为最大熵语言模型的候选特征.该方法从经过分析得到的词、词性、基本短语类型、基本短语的中心词和基本短语中心词的词性之中选择一个适当的形式和当前的词形成特征来表示长距离的约束关系,从而将语法、语义、词汇这些语言学知识统一在最大熵框架下.不同于传统的应用方式,本文提出的手语同形词的扩展方法将改进的最大熵语言模型应用在手语识别的后处理中,有效地提高了手语识别的性能,比Trigram模型提高识别率1.5％左右.
43.英汉双语自动对齐混合算法
- 周威;万康;刘志杰
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文根据现有对齐算法,提出了二次对齐思想,并重新修改了句子对齐评分规律,更好的把基于长度和基于词典的算法结合起来,同时优化了一些辅助算法,使计算效率和实用效果都达到了一个很好的水平.
44.基于HMM的短语翻译对抽取方法
- 左云存;宗成庆
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：在基于语料库的统计翻译方法中,基于短语的统计翻译与基于单个词的统计翻译相比可以更好地处理句中词语之间的关系,从而有效地提高机器翻译系统的性能.在基于短语的统计翻译方法中,一种重要的策略是把短语翻译对作为一种知识加入到翻译系统中,因此,整个系统的性能与使用的短语翻译对的质量具有很大的关系.本文在基于HMM词对齐方法的基础上,提出了一种从双语语料中自动抽取短语翻译对的方法,这种方法根据词语对齐时出现的不同情况作不同的处理,提高了短语翻译对抽取的效果.
45.基于NN-LSVM的日语依存关系解析
- 周惠巍;李巍;黄德根
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：日语依存关系解析是基于日语依存文法,确定句子中各个文节间的依存关系.为提高解析精度,提出一种基于NN-LSVM对大规模训练语料进行修剪的日语依存关系解析方法:使用LSVM和NN删除对分类没有作用的,甚至起反作用的训练样本,再经训练得到解析器.用京都大学语料库进行测试,结果表明在解析精度和解析速度上均得到一定的改善.
46.日-维机器翻译系统中词典的研究
- 维尼拉·木沙江;吐尔根·伊布拉音
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：日-维机器翻译输入的原文是日文语句,通过自动执行日-维翻译处理软件,输出的译文是维文语句.在日-维机器翻译系统中,词典占据极其重要的地位.机器翻译的各个过程,从自动分词,语法分析,语义分析到目标语的生成等都需要频繁地访问词典.词典的组织,既要考虑到分词,又要照顾到分析与生成,如何提高系统的速度等.
47.简明状态句及其汉英句类和句式转换
- 张克亮;中科院计算机语言信息工程研究中心
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：无谓语动词句(无动句)的理解和处理历来是汉语自然语言处理的一个难点,基于动词中心论的语言学理论对于无动句的描述和解释是非自足的.HNC理论定义了四组无特征语义块句类(无EK句类),专门用以描述无动句的语义结构.简明状态句是汉语中普遍存在的且具有代表性的无EK句类,本文旨在分析该句类的特点,面向汉英机器翻译探讨其句类及句式转换的规律.
48.古维吾尔文(察合台文)文献数字化整理系统中多文种混合处理的实现
- 地力木拉提.吐尔逊;瓦依提.阿不力孜;吐尔根.伊布拉音
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文通过多方面的分析和提出了古维吾尔文(察合台文)文献数字化整理系统构建中,多文种混合处理实现时基于Unicode的标准代码方案和键盘布局.并在此基础上提出了古维吾尔文(察合台文)多文种混合处理的具体实现算法
49.中文网络非正规语言处理的方法与实践
- 夏云庆;黄锦辉
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：非正规语言广泛应用于以网络为媒介的通信中,如聊天室,BBS,电子邮件和短信等.我们称在这些环境中使用的特殊语言表达为网络非正规语言(NIL)表达,例如中文ICQ中"偶"等同于"我".NIL表达处理需要非常规知识和技术,而目前面向正规语言的自然语言处理技术在处理NIL文本时效果并不理想.这一问题导致了NIL处理研究,即通过研制NIL处理系统,提高自然语言处理技术对NIL的适应性.研制开发了NILER系统,实现了模式匹配和支持向量机的NIL表达识别方法.实验结果表明,对已标注NIL表达的识别,模式匹配方法的准确率较高(91.5％),支持向量机方法的F-1指数较高(87.1％).
50.汉语学习者口语语料库计算机系统设计
- 田清源
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：汉语水平考试(HSK)在十多年的积累中掌握了大量汉语学习者的口语语料,建立汉语学习者口语语料库,能够让这些语料得到充分利用.本文对于汉语学习者口语语料库的建设需求进行了分析,对于计算机系统进行了总体设计,并初步制定了计算机系统的实施方案.
51.基于混合策略的查询串相似度计算方法
- 章成志;李斌
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：计算查询串之间的相似度是进行查询串自动分类和聚类的基础.针对信息检索中用户查询串特点,提出综合考虑查询串中词语的词形、语义、语用三个层面的信息计算查询串相似度的计算方法.首先利用字面相似度算法计算查询串在词形上的相似度,然后利用义类词典进行
52.内部紧密度和边缘自由度相结合的符号串单元度计算
- 谌贻荣
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：当今社会,新词层出不穷,自动词语提取日益变得重要.本文提出了一种基于内外部信息的词语单元度计算公式.该方法利用词串每个符号之间的内部节点的结合紧密度以及边界的左右两个节点的边界使用自由度来估算词语的单元度.实验表明该算法的抽词效果好于当前的常见方法,不仅计算双元素构成的片断时比常见算法中最好的互信息在精确率和召回率相等时的FMeasure值高出26.8％,而且单就准确率而言,排在前500位的几乎99.4％是词,前5000的91.18％以上是词,是目前我们所知的最高水平之一.
53.基于质子串分解的网络新词汇自动抽取
- 张勇;何婷婷
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：针对中文词汇构成特点,本文提出了一种基于质子串分解的网络新词汇自动识别方法.我们从Internet上采集网页,使用改进的互信息参数(F-MI)抽取结构简单的词汇(质词);并在其基础上,进一步使用质子串分解方法抽取具有复杂结构的词汇(合词),提高了中文自动术语抽取中长串抽取的精确度.该方法目前已在国家网络媒体监测项目中用来抽取网络中的新词汇.
54.现代藏语名词组块的类型及形式标记特征
- 黄行;孙宏开;江荻;张济川;唐黎明
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文针对现代藏语名词组块的构成与结构,对名词组块做了初步定义,并根据名词组块的句法功能开展了名词组块的分类研究,提出名词组块的形式标记可分为三种类型,一是词格、派生词缀、名物化标记等显性标记,二是代词、数词、指示词等可穷尽性词类作为自指标记,三是名词、形容词等构词词缀作为隐性标记.名词组块识别的基本策略可依靠右边界开展.
55.简单短语及线性邻接属性研究
- 宋柔;尚英;赵瑾
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：简单短语是从汉语处理的使用需求出发提出的概念,是较易自动识别、较高频、类内语法功能相似的若干类词组.本文界定了简单短语的概念,给出了简单短语类的草拟清单,并提出用线性邻接关系表现简单短语的语法特征,使词和词组能在同一个体系中刻画.最后,本文介绍了正在进行的简单短语工程.
56.蒙古语属格短语的类型分析
- 德·萨日娜
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：现阶段的蒙古文语料库加工、文本校对、文字识别及机器翻译等工程迫切需要面向信息处理的蒙古语句法、短语研究.本文通过对语料样例进行分析,概括出蒙古语属格短语的三大类型--名词性属格短语、动词属格短语和动名性属格短语,并对其内部结构分别进行进一步的分类和形式化描述,为蒙古语短语的整体研究铺开思路、做了补充,也为蒙古语语句生成提供了部分的合理性短语知识.
57.基于奥运语料的语义成分标注规范
- 李毅;亢世勇;孙茂松;孙道功
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文首先拟定23类语义成分的标注符号及标注方法,进而针对初步标注中出现的问题提出可行的处理方法,最终形成一套标注规范,为进行大规模语料标注提供依据.
58.基于语义词典的俄语语义自动分析研究
- 姚爱钢;武斌;易绵竹
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：语义自动分析的主要问题是借助语义语言实现词汇、句子和文本意义的模式化.因此,建立语义语言和语义词典就成为语义自动分析的基础.其中,语义词典的构建和完善工作尤其重要.俄罗斯学者根据这一思路完成了语义语言和俄语语义词典的建造工作,并着眼于最终建立能够进行文本语义分析的计算机系统.
59.基于Web保险信息的语义分析初探
- 贾君枝;刘焘;李景峰
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：针对Web保险信息用户需求的准确性、连续性特点,原有基于关键词匹配的检索方式已不能适应用户的需求,因此本文试图应用框架语义学理论,从语义层次上对保险信息相关的词语及概念之间的关系进行分析,并从已建立好的保险理赔语料库中抽出一篇文本进行研究,描述其所需的部分框架及其关系,并提取文本框架相关语义信息,同时着手开发语义自动标注工具,以备大规模语料库的语义分析使用,为今后的信息抽取、信息检索等应用研究奠定基础.
60.篇章修辞结构树库概述
- 乐明;310012;冯志伟
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：篇章标注已经成为语言资源建设的一个前沿内容.其中,以修辞结构理论(RhetoricalStructureTheory,RST)为指导的篇章修辞结构标注在最近几年取得了显著的成绩.本文概要叙述英语和德语篇章修辞结构树库建设的成果和方法,并由此展望建设中文篇章树库的方法和意义.
61.基于概率模型的网页相关度研究
- 贾玉祥;昝红英;范明
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：基于内容的网页相关度评价是提高网上信息检索服务质量的核心问题.本文以北大计算语言学研究所构建的名人实体网页语料库为基础,主要研究了中文名人实体网页的相关度评价问题,以满足用户定制的个性化检索需求.作者设计并实现了基于概率模型的名人实体网页相关度评价算法,总结其中的规律,提出了一种自动获取训练集以使检索自动化的方法.实验表明,概率模型提高了网页相关度评价的准确率,从而提高了检索服务质量.
62.基于多向量模型的中文话题追踪
- 王会珍;朱靖波;季铎;张斌
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：采用传统的向量空间模型进行文本表示,重要的特征经常会被大量的区分能力较弱的特征淹没掉,因此本文提出了多向量模型.它采用多个向量表示文本,将文本中重要的特征提取出来,表示成单独的向量,并将多向量模型用于改善中文话题追踪的性能.本文选用TDT4语料作为测试语料,将基于多向量模型的中文话题追踪系统与基于传统的向量空间模型的中文话题追踪系统进行比较,还分析了特征数目对话题追踪性能的影响.实验结果显示多向量模型能够提高话题追踪的性能.
63.基于文本的生物信息获取
- 王浩畅;赵铁军;于浩
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：随着基因和蛋白质序列的发布和分子生物学研究的发展,其相关的数据呈指数级增长.因此如何从海量的相关文献中直接获取生物学家研究领域的相关信息变得迫在眉睫.我们的研究主要致力于两方面的内容:一个是命名实体的识别,另一个是实体关系抽取.研究方法主要有:基于特征向量的机器学习方法、基于规则的方法和基于统计的方法,我们在蛋白质名称的识别上取得了较好的结果.
64.基于数据库的现代汉语新词语语法特点研究
- 亢世勇;鲍明凌;许小星
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文以<现代汉语新词语信息电子词典>为基础,对新词语的语法特点进行初步的统计和分析,并与<现代汉语语法信息词典>中的基本词语的语法特点进行比较,以而说明新词语的语法特点.
65.基于归纳逻辑编程的多槽信息抽取规则自动学习方法
- 叶娜;罗海涛;朱靖波;张斌
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：信息抽取是自然语言处理领域的重要课题.传统多槽信息抽取系统的规则是基于零阶逻辑的,表达能力有限.归纳逻辑编程(ILP)借助一阶谓词逻辑的强大描述能力,可以自然地表述各种特征,将其整合到一个逻辑框架下,从中学习目标关系.本文研究了ILP学习算法在多槽信息抽取中的应用.实验结果表明,本算法学到的规则比基于零阶逻辑的典型代表WHISK算法具有更好的性能.
66.基于外部知识的定义类问题回答
- 张著说;周雅倩;黄萱菁;吴立德
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文介绍了一种定义类问题回答(QA)方法.为了能够自动地从大规模的文档集中识别出定义性的句子,没有利用传统的手工建立的模板或已标注的语料,而是利用了在线知识库(onlineknowledgebase)中已存在的外部知识来实现我们的目标.我们采用了一种比较有效的方法来利用这些外部知识对候选句子进行排序,从而得到了高质量的答案.将该方法应用于文本检索会议(TextREtrievalConference,TREC)2004中的定义类问题回答任务,其F度量分值达到了0.404,已与最好成绩十分接近.
67.基于常问问题集的在线客服实验研究
- 张宇;刘挺;高立琦;车万翔;朱传靖
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：目前,企业的客服中心在客户服务和产品咨询上起着重要的作用,但是企业需要承担大量的相应开销,而且电话咨询的方式给用户带来了很大的不便.针对这一问题,本文研究了基于常问问题集的问答系统在企业在线客服中的应用,文中提出了基于常问问题集的在线客服系统的框架,并针对系统中的句子相似度计算进行了详细的讨论和分析.最后,针对金山在线客服系统实际应用,进行了详细的实验及分析.通过实验表明,基于常问问题集的问答系统在企业的在线客服中有着良好的效果和应用前景.
68.基于伪反馈与分类的文本检索
- 王灿辉;茹立云;张敏;马少平
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：查询空间与文档空间的不匹配是文本检索中的一大难题,在句子级别的检索中表现尤为突出.为解决这个问题而提出的查询扩展方法本身存在着难以解决的困扰.基于分类的方法绕过了这一难题,成为实现句子检索的一个可行方法.实际中使用分类方法碰到的一大难题是缺少正例数据.本文根据Rocchio方法利用反例从未标注数据中抽取出可能相关的文档,并采用文档长度进行加权,从抽取出的文档中挑选可信度较高的加入正例集,然后采用SVM分类,取得了比直接用查询进行检索更好的性能.本文还提出采用伪反馈的方法来补充正例,将用查询进行初次检索的结果经过Rocchio方法过滤后的结果视为正例,在此基础上用SVM进行分类,进一步提高了检索性能.
69.一种改进的基于内容的快速网页查重算法
- 连浩;中国科学院研究生院;刘悦;许洪波;王斌;程学旗
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：网页查重就是将大量网页集合中重复的网页找出来,并加以选择,使用户不用处理大规模重复信息,在节省时间的同时,提高信息检索等的应用效率.快速高效的网页查重算法无论对于采集器,还是web检索系统都十分重要.本文在对已有的文本查重算法进行比较研究的基础上,提出了一种基于特征码和词频的快速网页查重算法,该算法将特征码算法和传统的分类算法结合起来,在检索速度和效率上都取得了比较好的实验结果.
70.基于特征句抽取的网页去重研究
- 彭渊;赵铁军;郑德权;于浩
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：去除重复网页一直是信息检索领域的一个待解决的问题.本文基于双语文章的内容,提出了一种抽取特征词和特征句,判别跨语言重复网页的方法.并将其运用到了跨语言的重复网页的识别上.实验结果表明:该方法对双语重复网页的识别准确率在86％以上,对单语重复网页的识别准确率在97.5％以上,达到了实用的程度,同时,该方法对于双语平行语料的自动挖掘也有一定的帮助.
71.基于HowNet的词汇语义倾向计算
- 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：语义褒贬性倾向研究对文本分类、自动语义倾向研究的关键工作是对词汇的褒贬倾向判别.本文基于HowNet,提出了两种词汇语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法.实验表明,本文的方法在汉语常用词中的判别准确率较高,具有一定的实用价值.
72.浅层语义分析
- 车万翔;刘挺;李生
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：通过语义分析可以理解自然语言语句,并进行深入的知识获取和推理,使计算机能够与人类无障碍的沟通.为达此目的,人们已经进行了多年的努力,然而目前取得的效果并不理想.浅层语义分析,又被称作语义角色标注,是对深层语义分析的一种简化,它只标注与句子中谓词有关的成份的语义角色,如施事、受事、时间和地点等等.由于现有自然语言处理技术以及统计学习技术的成熟,使浅层语义分析得以实现.同时它能够对问答系统、信息抽取和机器翻译等应用产生巨大帮助.本文分析了现有各种浅层语义分析方法,并提出了对该任务一些难点问题的解决方案和对浅层语义分析发展的一个初步展望.
73.情境描述的构建方法研究
- 周强;陈祖舜;梅立军
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：情境描述是基于情境的词汇语义学的核心和基础.本文首先介绍了我们构建情境描述的基本准则,然后通过"符合"情境的构思过程提出了情境提炼的基本方法,最后介绍了我们设计的情境开发支撑平台的主要内容.在情境开发平台支持下,通过充分利用现有语义词典资源,本文人工总结提炼了约140个情境描述,基本上涵盖了人类认知过程中的各个重要的认知图式.
74.汉语人称代词消解的前端处理
- 梅铮;王厚峰
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文讨论了汉语人称代词消解的前端处理所需要解决的两大问题:(1)潜在先行语的识别和捆绑处理(2)人称代词和先行语语法角色的识别.提出可能成为先行语的名词短语的捆绑算法以及人称代词和先行语的语法角色分析算法.对测试结果进行手工分析,表明算法是满意的.
75.一个可扩展的汉语词法和句法分析一体化系统
- 江丰;刘慧;陈玉泉;陆汝占
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文构造了一个汉语词法和句法分析的一体化处理系统,该系统将汉语分词、词性标注、句法分析以及未登录词识别紧密地结合起来,在各模块之间实现了充分的信息共享.更重要的是,该系统同时又具有良好的可扩展性,整个系统构建在统计模型的基础上,但为各个模块保留了消歧的接口.
76.基于规则和统计的汉语浅层句法分析的研究
- 庞文斌;张国煊;曹恬
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文提出了一种基于规则和统计的汉语浅层句法分析方法,即运用浅层句法分析理论,把汉语句子分析分为谓语的提取、组块分析以及主语和宾语的确定三个步骤.文中给出了句子分析的模型:讨论了谓语特征的选择;定义了二元基本名词短语并利用有限状态自动机加以识别:最后还提出了主语和宾语的识别策略.
77.现代汉语基本词汇先验集的考察分析研究
- 韩秀娟;赵小兵;张志平;戴姗;秦鹏;田学恒;张普
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：基本词汇是词汇的核心,是汉语教学、语言本体研究及信息处理领域的基础.当前对基本词汇的研究还远远不够,还没有一个现实存在的基本词汇集,更没有对其量化测定的手段,本文介绍了基于动态流通语料库的现代汉语基本词汇研究的一项前期工作--现代汉语基本词汇先验集及特性的考察.这对实现基本词汇的计算机自动提取有十分重要的意义.
78.高频最大交集型歧义字段问题研究
- 李斌;陈小荷;方芳;徐艳华
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：交集型歧义是中文分词的一大难题,建立大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义.本文采用全切分方法,在4亿字人民日报语料上采集严格定义的高频MOAS14906条,随机抽取了相应的1354270条带有上下文信息的MOAS实例进行人工判定.数据分析表明,大多数真歧义MOAS存在着强势切分现象,词表词字段也应纳入MOAS的探测范围.
79.决策树模型和最大熵模型在文本分类中的比较研究
- 谷波;刘开瑛
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：比较研究了决策树模型和最大熵模型在中文文本分类中的应用.利用分类训练集的文档类别标号已知,按类别进行文本的特征选择,去除了对分类任务作用不大的词语特征.在上述得到的特征集合下,对目前应用较多的决策树模型和最大熵模型,分别进行了特征词的二值情况下和加入特征词的频率信息的情况下的中文文本分类实验.实验结果显示,在相同的条件下最大熵的分类性能要优于决策树,最大熵模型的分类准确率要比决策树高近20％.另外当在分类过程中引入词语频率信息时,反而使分类器的性能略有下降,对最大熵分类准确率下降1％-2％,对决策树影响基本不大.这表明引入新的信息未必总能提高分类性能.
80.汉英EBMT系统的领域自适应研究
- 蒋宏飞;杨沐昀;刘海洁;赵铁军
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：EBMT系统在受限领域下可以高效地生成准确的译文,是目前应用较为成功的一种机器翻译技术.为了进一步解决此类系统面向不同应用领域时的自适应问题,本文提出应用文本分类技术,自动判别待翻译文本的类型,并选择对应的翻译实例库进行翻译.实验表明,该技术能够提高EBMT系统的性能,满足面向奥运的翻译中的多领域自适应的实际需求.
81.EBMT中翻译模板的抽取与匹配
- 张学;黄德根
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：在EBMT(Example-BasedMachineTranslation)系统中将翻译实例泛化为翻译模板,可以有效的减少实例的存储空间,提高实例的检索效率,而实例匹配更是直接关系到了EBMT系统的翻译质量.本文提出了一种利用汉语句子的表层句法信息和词汇语义信息,从实例中提取多级翻译模板的方法.多级翻译模板可以在模板匹配中关联计算相似度并独立进行翻译.该方法产生的翻译模板规模小,可以有效的降低相似度计算的复杂度并提高精确度.
82.一种基于网络的英文缩略语信息的自动抽取方法
- 朱江涛;蔡东风;张桂平
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：面对Internet中丰富的信息资源,本文提出了一种基于互联网,实现缩略语源词组及中文翻译的自动获取方法.本文利用缩略语构词规则来提取候选词组,利用句法规则进行筛选,实现了缩略语源词组的自动抽取;采用基于带有参数的模式匹配与词频统计结合的策略,实现了缩略语中文翻译的抽取.在信息检索时,本文利用中英文辅助检索词表生成检索项列表,有效地提高了网络信息抽取的准确率和召回率.实验结果表明:本系统对缩略语源词组抽取的正确率达到90％;对缩略语中文翻译抽取正确率达到91％,召回率达到66％.
83.中文文本全文查重的实验研究
- 宋兰;孙茂松
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：互联网中大量的重复文本不仅给信息检索带来了诸多不便,而且也是对知识产权的侵犯.本文主要通过实验研究中文文本查重的两个因素:(1)特征字的因素,即分别选取高频字(包括逗号和句号)、中频字和低频字作为特征字对全文查重的影响;(2)位置的因素,即对比文本等分位置和其他位置分别作用于全文查重的效果.实验结果表明,当选取全文五等分位置时,F-measure可以达到100％.
84.事件类时间短语识别
- 赵国荣;杨尔弘
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：时间信息抽取是自然语言处理的一个新课题.2004年ACE评测在TERNevaluationplan中对时间表达式的评测给出了详细的定义和要求.本文给出了表达明显时间信息的短语--事件类时间短语的定义.事件类时间短语的识别对于信息抽取、信息检索、问答系统、文本摘要和数据挖掘等领域的研究都将具有很重要的意义.因为事件类时间短语的结构的特殊性,本文采用规则的方法进行识别,在封闭测试中Fβ=1值为91.65％,在开放测试中Fβ=1值为89.66％,达到了一个比较好的效果.
85.论系统相似的度量
- 关毅;王晓龙;王强
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文阐明了系统相似度计算的基本原理,提出了一种新的系统相似度计算函数,论证了该函数的代数特点.作为系统相似度计算的应用之一,本文进而提出了一种新的信息检索模型-系统相似模型,论证了向量空间模型为该模型的特例,且该模型能有效地弥补向量空间模型的缺陷.
86.TREC中提高检索鲁棒性的技术研究
- 徐晋;赵军;吕碧波;徐波
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文提出了两种提高检索鲁棒性的方法:(1)词义熵权重计算公式;(2)两级处理策略.在NLPR-IR信息检索系统上,以TRECRobutt任务提供的大规模标准文本库(528155篇文档,250个公开的查询主题)为评测平台,检验了以上两个方法.实验表明,词义熵模型与当前常用的TF*IDF权重计算公式联合使用,能有效提高检索系统性能;而对两级处理策略,其也能有效地降低查询扩展中噪音对检索性能的影响.
87.何谓金本位
- 黄昌宁;林娟;孙承杰
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：近年带标语料库被业内人士誉为金本位,主要是因为它们常常被用作自然语言处理系统训练和测试的语料,起到标准答案的作用.作者指出带标语料库实际上是某种特定语言信息最原始的知识载体,是大规模词例化知识的基本表示形式,关于这种语言知识的其他表示形式都是由此派生出来的.以自动分词技术为例,从分词规范到"规范+词表",然后到带分词标记的语料库,这条发展轨迹记录了人们在分词技术上取得的巨大进步,尤其是认识上的深化.本文通过2003年国际自动分词评测活动Bakeoffl介绍了活动用四种带分词标记的语料库来实现全自动评测的新方法.然后作者通过对BakeofflPK和AS两个测试语料库的调查发现,它们的分词出错率分别达到了1.29％和2.26％,从而对分词系统的评测结果带来显著的影响.为此建议用标注信息的出错率来定量地评价每个带标语料库的标注质量,以真正维护其金本位的功能.
88.中文缩略语自动抽取初探
- 崔世起;刘群
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：汉语中许多新生的词语都是短语的缩略形式.对缩略语的检测是未登录词识别的一部分,但用来作为训练语料的缩略语词典资源却很稀缺.本文提出一种在生语料中自动抽取中文缩略语的方法,首先获取候选缩略语集和源短语库,然后利用语言模型和对齐模型等特征进行候选缩略语和源短语的对齐,最后得到一部粗糙的缩略语词典.在实验中,在新词中进行缩略语提取的准确率达到了51.4％,召回率达到了81.7％.
89.单字动词的组合处理研究
- 孙雄勇;中国科学院声学研究所;张全
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：从词汇层面来看,汉语处理的难点之一是词语边界模糊.而汉语中的单字词处理,则是这一难点中的难点.其根源在于,汉语单字词的意义复杂,义项很多.而汉语单字词具有很强的组合特征,在组合形成的多字结构中,单个汉字的语义模糊大大减少.本文以HNC理论的概念基元符号体系与句类体系为基础,探索分析了汉语中单字动词组合处理的特点及其句类特征,最后总结形成了处理规则.从本文可以看到,HNC的概念基元符号体系与句类体系可以为汉语单字动词深入语义层面进行处理提供关键线索.
90.抽象名词和组织类名词的限定作用
- 郭慧志;谢学敏;张普
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：兼类词消解一直是中文信息处理句法分析的难点,对实际语料的研究发现,有些抽象名词和组织类名词对兼类词起着限定作用.本文通过程序设计提取了这些词,并对若干问题进行探讨,希望能对自然语言处理起到积极的推动作用.
91.利用时点层级系统消解t+t歧义结构及相关应用
- 张俊萍;冯志伟
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文在潜在歧义理论的基础上,重点分析t+t(t为时间词)结构潜在歧义的类型,将时间词进一步细分次类(时点和时段)、并建立时点层级语义关系系统及基于语义约束的形式规则(条件→动作型知识)来消解t+t的潜在歧义,这有利于提高机器翻译的质量,该时点层级系统也适用于对外汉语教学及促进新闻语料加工和汉语时制、时态研究.
92.是否判断句和句类转换
- 苗传江
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文的内容属于现代汉语句子语义的研究.是否判断句是指以表达"是"或"不是"的动词为述语的句子,是否判断句类转换是指隐含了另外一个句子的是否判断句,例如,"这部电影是张艺谋导演的",这个句子就是"张艺谋导演这部电影"向是否判断句的句类转换.本文讨论了其他句类转换为是否判断句的常见类型,并分析了其处理策略.
93.蒙古语宾述短语的自动获取研究
- 华沙宝;达胡白乙拉
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文讨论了由名词和动词构成的基本宾述动词短语的自动获取问题,介绍了用基于规则方法来实现自动获取蒙古语宾述短语的探索结果.根据现代蒙古语语料库的部分语料,归纳了一套自动获取规则,规则包含短语成分的词类信息、形态信息和上下文信息.经测试,自动获取的准确率达到84.76％.本文把测试结果中出现的歧义结构分为边界歧义和关系歧义两大类,提出了一些自动消歧的方法.
94.词汇-语法理论在汉语研究中的适用性
- 靳光瑾
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：为了适应信息时代的需要,国际上的语言研究越来越强调词汇主义,即句法研究要落实到词项上.对词项的句法个性进行描述,体现在由词入句时的分布特征和变换特征所整合而成的组配词表.该文以现代汉语动词"擦"为例,运用词汇-语法理论和方法对"擦"作穷尽的句法描述,以测试词汇-语法理论在汉语动词句法描述中的适用性.结论:用词汇-语法理论和方法描述汉语动词可以为中文信息处理提供实用的语言信息.
- 词汇;
- 语法;
- 句法描述;
- 汉语;
95.基于DCC动态流通报纸语料库的流通度词表和使用度词表的对比分析
- 史中琦;张普
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：词表对于中文信息处理等领域具有重要的价值和意义.作者对从2002年10种主流报纸中提取的两个词表(流通度表和使用度表)前3000词语进行了比较,如果把使用度词表作为初表,对比后发现流通度对使用度词表进行了较大幅度的调整,使用度表前3000词语中34.37％的词语到了流通度表中跌出了3000,65.63％的词语保留在了流通度表前3000,同时有1031个词语新进入了流通度表前3000.本文对新进入的词语进行分析,发现2/3的词语具有显著领域特色;标识类名词数量众多,代词和形容词数目偏少.我们还进行了语感验证,结果显示流通度对使用度词表的调整是合理的,最后的结论是:以流通度为标准提取的词表由于加入了发行量和媒体等系数,在内容和顺序上更能反映报纸的动态变化,更加科学实用.
96.基于标注语料库的现代汉语单句句型句模的对应关系研究
- 孙道功;亢世勇;孙茂松
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：本文介绍了标注句子句法、语义结构语料库的基本情况,在标注语料库的基础上,从句型的角度着眼,构建现代汉语单句的句型句模的对应体+系,进一步说明了句型句模对应关系研究的意义.
97.一种用于汉语信息抽取的词汇本体
- 姚天昉
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：在研究特定领域汉语命名实体和实体关系识别时,笔者建议了一种可用于上述任务的词汇体育本体模型.根据这个模型,本文设计和实现了这个本体.它被来自知网的词汇概念信息与笔者建议的语义限制方法半自动地组合.除了概念类层次体系的关系以外,概念类之间的非层次体系关系也通过语义限制被建立.对CHINERIS系统的测试结果展示了识别6种类型命名实体和14种类型实体关系总平均f-度量分别达到83.08％和70.46％.因此,这种用于汉语信息抽取的词汇领域本体模型是合理和有效的.
98.基于内容的词义本体知识自动获取
- 郑德权;赵铁军;李生;于浩
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：由于自然语言的灵活性和复杂性,给语言知识自动获取带来一定的困难.本文提出基于内容的词义本体知识自动获取方法,该方法首先定义了词义本体知识描述框架,然后从语料库中获取词本身与同现的其它信息在语义、语用、句法等方面的用法,形成词义的本体知识库,并以量化的形式保存.利用所获得的词义本体知识,本文实现了文本相似度计算、信息过滤等有关实验,与现有方法相比,较好解决了精确率偏低问题,取得了较好的效果.
99.多语种词汇语义网建设中的几个问题
- 毕玉德;崔杞鲜;刘扬
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：在自然语言处理领域,从语义处理的角度来看,像词汇语义网这样高层次的知识库是保障正确的语义解释和语义关系的设置所必须的资源.本文就多语种词汇语义网构建中的概念及其关系表示、概念体系、语种转换、UNICODE编程等问题进行了初步分析,以期对多语种词汇语义网的构建起到积极的意义.
100.一种基于suffix arrays的快速翻译方法
- 胡日勒;诺基亚(中国)研究中心;宗成庆;王霞;徐波
- 《全国第八届计算语言学联合学术会议》 | 2005年
摘要：面向限定领域的特定任务翻译服务,在有限资源的掌上电脑(PersonalDigitalAssistant,PDA)上实现快速语音翻译这一实际问题,本文提出了一种基于suffixarrays数据结构的快速翻译算法.在该算法的基础之上我们建立了旅游信息查询领域的汉英语音翻译模块,并在PDA平台上加以实现.初步的实验结果表明,该系统不仅具有较好的实时性和比较高的正确率,能正确处理一些语音识别产生的错误,而且在限定领域内可以达到较高的覆盖率,为语音翻译的进一步实用化进行了有益的探索.