首页>中文会议>工业技术>自动化技术与计算机技术>第七届中文信息处理国际会议

第七届中文信息处理国际会议

召开年：2007
召开地：武汉
出版时间： 2007-10-13

主办单位：中国中文信息学会;武汉大学

会议文集：第七届中文信息处理国际会议

会议论文

热门论文

全部论文

最新会议

更多>>

全选（0）

1.基于语义概念空间的渐进直推式文本分类
- 张晓滨;尹英顺;赵培坤;魏聪明
- 《第七届中文信息处理国际会议》 | 2007年
摘要：在渐进直推支持向量机中,合理的降维在很大程度上可以提高分类的性能和降低计算的复杂度。降维通常有特征选择和特征提取两种方式。通过核主成分分析(KPCA)提取语义概念空间实现特征提取,因为GHA算法在每次KPCA迭代过程中,无需直接计算和存储协方差矩阵,实现了较好的时间和空间性能。实验表明,本文所提出的基于KPCA和PTSVMs相结合的文本分类方法,在少量有标签样本和大量无标签样本所构成的混合样本训练集上取得了良好的分类效果。
2.基于URL特征的动态页面聚类
- 崔安颀;岑荣伟;张敏;马少平
- 《第七届中文信息处理国际会议》 | 2007年
摘要：日益广泛应用的动态页面使数据抽取成为信息检索的关键技术和垂直搜索等领域中的重要组成部分.页面聚类利用页面间相互关系,可有效简化数据抽取步骤.但目前尚无有效的基于页面格式特征的页面聚类方法。格式相近的动态页面使用相同或近似的模板生成,其URL特征十分相近,利用该特征可间接获取页面模板信息。本文提出的基于URL特征的聚类算法,通过分析URL特征找到同类页面间的相似关系并聚类.经实验,聚类效果良好的类占总数的80％以上.该算法在时间和空间上的有效性使其具有广阔的应用前景。
3.基于基本要素的用户聚焦型文摘内容选择
- 滕冲;武汉大学语言与信息研究中心;何炎祥;武汉大学语言与信息研究中心;刘德喜;姬东鸿;杨华
- 《第七届中文信息处理国际会议》 | 2007年
摘要：以基本要素为内容单元,分析了用户聚焦型DUC2005数据集的分析结果显示,人工进行文摘内容选择时会参考用户给定的话题,参考的模式是:对话题中出现的基本要素,在原文档簇中找到包含该基本要素的句子,并将该句子前后若干句子中的基本要素作为候选,选择其中出现频率高的作为文摘内容。
4.基于语料库的维吾尔语语音合成系统研究
- 吾守尔·斯拉木;那斯尔江·吐尔逊;西安交通大学电子与信息工程学院;麦麦提艾力
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文在基于语料库的波形拼接式语音合成技术的基础上,研究开发了高自然度的维吾尔语语音合成系统。首先,建立了维吾尔语语音语料库并进行句子、词、音节等多层次的标注；然后,对输入的文本进行预处理后选择合适的合成基元,并采用波形拼接技术合成出语音；最后,为了减少在拼接点处的语音失真和突变,采用基于时域平滑技术对合成语音进行平滑处理,从而减少合成语音中的咔嗒声.
5.蒙古语言机器翻译研究与进展
- 王斯日古楞;内蒙古师范大学计算机与信息工程学院;那顺乌日图
- 《第七届中文信息处理国际会议》 | 2007年
摘要：蒙古文机器翻译研究,经过了几个阶段的,不同翻译方法的探索过程。在汉蒙机器翻译方面曾经做过基于规则的和基于实例的研究,并取得一定成果。近年也进行基于统计的汉蒙机器翻译的探索；在英蒙机器翻译方面进行过基于规则的研究和基于模板的研究；同时在蒙日、日蒙、蒙汉机器翻译方面也进行了一些探索性的研究。目前以蒙古语为目标语言的机器翻译研究相对多些,而以蒙古语言为源语言的很少.总结和归纳蒙古语机器翻译研究的经验教训,对我国民族语言机器翻译的进展有很大借鉴作用。
6.一种基于翻译记忆的汉日机器辅助翻译
- 杜伟;陈群秀
- 《第七届中文信息处理国际会议》 | 2007年
摘要：基于翻译记忆这一机器翻译技术,本文对比了Trie树、哈希表、后缀数组这三种比较常见的索引方式,并提出了一种基于哈希表和后缀数组的双重策略的翻译算法,并应用于汉日机器翻译系统中,同时提出了一种利用此技术进行机器辅助翻译的方法。初步实验结果表明,该方法拥有较高的效率和较低的内存资源占用。
7.基于动态流通语料库(DCC)的中文组织名简称考察与研究
- 陈慧;董守志;张普
- 《第七届中文信息处理国际会议》 | 2007年
摘要：基于动态流通语料库,构建了一系列组织名简称数据库,并对其进行了校对、各项统计、用字分析和缩略规律的初步考察.
8.基于同义词词林的词汇褒贬计算
- 路斌;万小军;杨建武;陈晓鸥
- 《第七届中文信息处理国际会议》 | 2007年
摘要：词汇褒贬分析是文本情感分析研究的基础。本文提出了利用同义词词林来计算词汇褒贬的方法。该方法利用同义词词林中的同义词词群,根据种子词汇扩展得到更大的褒贬义词集合.在词汇测试集和文档测试集上的实验,证明了本文方法的有效性。
9.一种基于规则不依赖于分词的中文数量短语的识别
- 熊文;张玲
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文提出了一种新的基于规则的不依赖于分词的数量短语识别方法来实现中文数量短语的识别。首先对中文数量短语识别技术的现状进行了简要分析和概述,明确了中文数量短语识别的任务,然后,基于前人的工作提出了基于规则的方法及不作分词和词法分析,而根据数量短语的特征库直接进行提取和识别的方法。其基本思路是:通过识别器中的搜索器对句子进行搜索,得到一个具有特征的最大字符串,再通过内建的规则处理器对最大字符串进行中文数量短语构成模式的识别,在识别的过程中,使用数量短语特征库填充11类构成模式,并自动对识别出的数量短语进行类XML标注,由于特征库和构成模式可以方便地添加进系统,从而能加强系统的识别效果。我们在人民日报1998年1月份的未标注语料上进行了中文数量短语的识别实验,取得了召回率98.7％,精度90.9％的较好效果,由于采用了不分词的技术,与采用分词技术的识别过程相比,显著地提高了处理的效率。
10.一种基于规则的中文分词算法
- 傅士光;林友芳;万怀宇;徐娟娟
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文提出了一种基于词库的结合词频、词性、中文文法规则和未登录词识别规则的分词算法,该算法首先通过采用基于词库的跨度为1的前向最大匹配分词算法获得初步的分词结果,然后依据中文文法规则和词条筛选规则对初步结果进行再次划分,得到优化的分词结果,最后通过未登录词识别规则对分词结果进行检查,将满足未登录词条件的新词加入词库.该分词算法能够在很大程度上消除歧义划分,提高未登录词的识别概率。实验结果表明,该分词算法的准确率能达到97％以上,在效率上也具有很大优势。
11.基于转换的错误学习方法在中文分词后处理中的应用
- 何楠;毛新年;董远;北京法国电信研发中心有限公司;王海拉
- 《第七届中文信息处理国际会议》 | 2007年
摘要：为研究基于转换的错误学习方法(TBL)以后处理方式提高分词精度的问题,分别用FMM和HMM两种初始分词器,在SIGHAN 2006 MSRA和UPUC语料上试验了基于字的一元、二元、三元及其组合等九套模板.结果表明在复合模板中包含基于字的二元模板比不包含的效果好,而一元二元复合模板效果最好且在初始精度很高的情况下仍带来明显性能提升,使HMM在SIGHAN 2006 MSRA开放测试上的名次由第六位上升到第三位.同时在上述九套模板上进行了基于规则数目和规则得分的裁剪实验,结果表明平均使用9.45％的规则就能达到85.947％的性能提升.
12.对整词二分自动分词机制的改进
- 王虎;王潜平
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快.
13.'把'字句核心动词的计算机辅助发现及合法性判断研究
- 王洁;田旭红;宋柔
- 《第七届中文信息处理国际会议》 | 2007年
摘要："把"字句是现代汉语中十分常用的一种特殊句式,其核心动词一般含有处置或支配的意义。外国或外族的汉语学习者在使用"把"字句时最常犯的一种错误是使用了非法的核心动词。本文探讨"把"字句核心动词的计算机辅助发现方法,针对教师教学采用基于规则的自动发现方式,针对学生学习采用交互发现方式。在发现核心动词的基础上,又介绍了判断核心动词合法性的方法。
14.根节点解析和词性标注体系对中文依存关系解析的影响
- 周惠巍;杨亚歌;黄德根
- 《第七届中文信息处理国际会议》 | 2007年
摘要：我们已经提出一种考虑远距离依存关系的确定性中文依存关系解析方法,较好地解决了有些相互依存的词距离较远,使用传统的确定性解析方法难以解析的问题。但是自底向上的确定性依存关系解析没有考虑整句信息。本文构建了根节点解析器,为依存关系解析提供句子依存结构信息。实验采用哈尔滨工业大学的依存关系语料库,结果表明引入根节点解析器后根节点与依存关系解析精度均得到较大的提高。为提供更准确的学习特征,本文基于隐马尔可夫模型细化了语料库的词性标注体系,从而进一步提高了依存关系解析器的解析性能。
15.面向信息处理的维吾尔语短语结构规则与标注集研究
- 玉素甫·艾白都拉;潘伟民;力提甫·托乎提
- 《第七届中文信息处理国际会议》 | 2007年
摘要：由于维吾尔语言文字不同于西方语言文字和汉语言文字,维吾尔文信息处理也有其明显的特点和独特的难点。维吾尔文信息处理总体上可分为基础研究和应用技术两大类。本文第一步,主要介绍近几年来的部分研究成果的同时主要介绍近几年来维吾尔文信息处理过程中所做的研究工作、取得的成绩、遇到的难题和解决这些难题；第二步,主要介绍定义现代维吾尔语短语,确定短语结构与定义短语分类情况；第三,讨论根据维吾尔语有自己的特点,短语语类之间相互关系；第四步,提出面向信息处理的现代维语短语一级词性标记集.
16.基于移进归约算法和结构化模型的依存概率句法分析器
- 贾剑峰;史晓东;张慧;陈禹
- 《第七届中文信息处理国际会议》 | 2007年
摘要：Shift-Reduce的确定性依存分析模型由于在动作选择上的歧义,在结构上并不能保证生成一棵连通树。本文在确定性分析的基础之上,提出了一种依存树概率模型,通过动态发现结构错误信息,来连接确定性算法中产生的树林,最终得到一棵合法的连通依存树.系统参加了CoNLL2007的评测,中文依存弧标记准确率为(LAS)76.36％,英语LAS 82.93％。
17.基于语料库的现代汉语句法成分和语义成分对应机制研究初探
- 许小星;亢世勇
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文在标注语料库的基础上对语义成分同句法成分之间的对应机制进行了初步的探索.通过考察施事和受事两个语义成分映射到主语、状语、宾语三个句法位置所受的限制,明确了名词语义特征、谓语动词语义特征、句式对语义成分出现在句法位置上的制约作用。
18.词义类型及语言理解
- 欧阳晓芳
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文认为指称义、客观属性义和主观评价义构成了一个分层级的词义系统,词义系统内部的各个层级,甚至各个词义分子也都有着不同的论域.要实现语义识别,还需要从论域的构建着手。
19.WordNet在隐喻判断中的应用
- 诸葛雯;华惊宇
- 《第七届中文信息处理国际会议》 | 2007年
摘要：普林斯顿大学研发的WordNet是一种依靠语义关系构建起来的义类词典.它所蕴含的丰富的名词层级关系以及上下义关系可以用来实现语用大师Grice的隐喻判断思想。通过检索、计算所涉及的词语在其最常见释义的上下义关系上有无交集可以判断该语篇是否发生了隐喻现象。
20.汉语情感词语义倾向判别的研究
- 姚天昉;娄德成
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文主要描述了意见挖掘中如何判定汉语语句情感词的语义倾向(极性)。我们不仅计算情感词的静态极性,而且通过分析它的上下文,计算情感词的动态(修饰)极性。从而提高了情感描述项极性判断的准确性。实验结果显示,我们在研究中所建议的方法是合理和有效的。
21.基于义类信息的动宾搭配的考察与实验
- 程月;南京师范大学中北学院;陈小荷;李斌
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文基于《同义词词林》的义类信息,对动宾搭配短语进行了相关考察与实验。主要从100万字的清华汉语树库(TCT973)中抽取两种类型的动宾搭配词对,共计50611对次(tokens)。考察了高频双字动词所带宾语的义类分布情况,并基于义类信息对依存树库中的动词进行了动宾搭配识别实验,以"发展"为例讨论了义类信息的效用与不足。
22.基于文本的概念分类自动获取技术
- 梁健;蓝永胜;乔晓东
- 《第七届中文信息处理国际会议》 | 2007年
摘要：当今社会处于一个信息爆炸的时代,面对日益增长的海量信息,构建知识系统进行知识管理尤为重要.概念分类是知识系统的核心,但分类的构建是一项庞大的工作,如果完全采用人工方式则效率极低.针对此问题,本文提出一种自动获取概念分类的方法,设计并开发基于文本的概念分类自动获取原型系统,最后进行初步测试。
23.基于语义理解的意见挖掘
- 蔡健平;林世平
- 《第七届中文信息处理国际会议》 | 2007年
摘要：Web上存有大量对某些人或物的主观评价和意见,其中主要表达了主观的褒贬倾向。这类褒贬倾向的挖掘广泛应用在许多领域,如电子商务、商业智能、信息过滤等,具有极大的实用价值。意见挖掘技术是一种新颖的语言技术,本文提出了如何构建极性词典、收集领域术语,并结合句子修辞分析和邻接词法来挖掘这些倾向评论和意见,判断其褒贬性及强度。该意见挖掘方法对手机论坛文章进行了测试,取得了初步的成效.
24.基于SVM的多向量文本表示模型话题关联识别研究
- 张晓艳;王挺;陈火旺
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文在理论分析的基础上,并通过基准实验验证,提出一种多向量表示模型,该模型在尽量不丢失新闻报道信息的情况下,对特征集合尽可能细的划分,在模型比较时采用支持向量机对多个向量相似度进行整合.并在此基础上实现了话题发现与追踪中的话题关联识别系统。试验表明相对于基准系统,该系统的检测代价有明显降低,很大的提高了系统性能。
25.基于关注度的热点话题发现模型
- 罗亚平;王枞;周延泉
- 《第七届中文信息处理国际会议》 | 2007年
摘要：因特网已成为人们获取信息的重要途径,如何发现网站上的热点话题、跟踪和预测话题的发展对于许多领域是非常有用的。本文提出一种"话题关注度"的量化表示方法,用于描述一定时间内站点上新闻话题受关注的程度,进而提出基于话题关注度和用户浏览行为的热点话题发现模型,该模型可以自动发现一段时间内网站上的热点话题。同时,使用"话题指数"来描述话题的发展过程。实验证明,基于用户浏览行为的热点话题发现模型比基于媒体关注度的热点话题发现模型具有更好的效果。
26.命名实体识别:One-at-a-time or All-at-once? Word-based or Character-based?
- 余军;陈晓鸥
- 《第七届中文信息处理国际会议》 | 2007年
摘要：命名实体识别是找出文本中出现的人名、地名、机构名等,由于中英文的区别,中文本身没有分好词,在识别时,一种做法是先对文本分词后,再使用机器学习的方法进行识别,本文称之为基于词的方法(word-based)；但是能不能不分词而直接识别呢(character-based)?识别效果又怎样?另外需要考虑的问题是,在识别时,是应该分别建立模型(one-at-a-time)识别不同类型的实体,还是用一个统一的模型来同时(all-at-once)识别所有的实体呢?本文对上述问题作了深入的研究,发现all-at-once,character-based方法的识别结果最好,而one-at-a-time,character-based方法虽然在机构名的识别上略差,但模型总的训练时间比all-at-once短很多.另外,本文实体识别是基于CRF模型,尽管只用了简单的特征模板,但对于人名地名,F-measure在90％左右,机构名87％左右.
27.基于本体与框架的书本知识表示与获取的研究
- 张旭洁;夏幼明;甘健侯;吴仕勇
- 《第七届中文信息处理国际会议》 | 2007年
摘要：基于本体与框架知识表示方法,提出并实现了一种高效并且能够半自动构建领域知识层次结构与概念间关系的方法。首先知识工程师利用BABEL结构化知识表示语言对书本知识中的章节标题信息进行层次结构标记,然后利用BABEL知识编辑系统处理经过标记的书本知识,生成由XML描述存储的层次化结构知识库,实现层次化结构知识的获取.
28.基于转换规则的汉文-维文专有名词自动翻译研究
- 塞麦提·麦麦提敏;新疆大学人文学院;亚森·伊明
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文针对真实文本中出现最为频繁的人名、地名、机构名等三种专有名词,提出了一种基于转换规则的专有名词自动翻译方法。该方法根据汉语和维吾尔语的特点,将翻译过程分为三个阶段,从而实现汉语专有名词向维吾尔语的自动翻译.其不同于传统的机器翻译方法,不需要建立丰富、完整的双语词库.实验结果表明：该方法的准确率达到90.5％,从而证明了基于转换规则的专有名词自动翻译方法的有效性,而且基于该方法的专有名词自动翻译子系统可以运用到跨语言信息检索(CLIR)、机器翻译(MT)和问答系统等多语言信息处理应用领域之中。
29.语音与若干典型类别音乐数据间的自动分类研究
- 张一彬;周杰;王霞
- 《第七届中文信息处理国际会议》 | 2007年
摘要：基于内容的语音与音乐数据自动分类是一个十分重要的研究方向,它是许多实际应用的基础。本文对语音与4种典型音乐类数据(钢琴独奏曲、交响乐、京剧、流行歌曲)在不同特征集、不同分类器下的自动分类问题做了比较性研究。实验结果表明对于这个多类分类问题,混合音频特征集与神经网络分类器相结合的效果较好。此外,我们还通过Isomap方法对语音与不同类别的音乐数据之间在混合音频特征集下的相对可分性作了直观的比较。
30.n-n三字隐喻研究
- 王治敏;俞士汶
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文通过对三字隐喻构成特点、数量分布、映射规律等方面的细致分析,发现构词层的隐喻与短语层的隐喻有明显的差异,绝大多数构词隐喻只存在一个词语的构词层面,构词成分组合后上升到词汇层面隐喻义消失,其源域和目标域一般来自具体概念,源域到目标域的映射主要是为了实现目标域名词的分类、形态特征、属性描写、事件描述等功用。
31.被字句跨标点句共享
- 张瑞朋
- 《第七届中文信息处理国际会议》 | 2007年
摘要：被字句跨标点句共享是整个跨标点句句法关系的一个组成部分.传统语言学中对单句内部被字句的结构研究很多,为被字句跨标点句共享的研究打下了基础。本文主要研究当原配句是被字句时,缺失成分的续配句共享被字短语还是主语、介词宾语.这个研究对于汉语深层理解及其汉语机器翻译都有重要的理论价值和实用价值。
32.'嗯'、'啊'类话语标记研究
- 殷治纲;李爱军
- 《第七届中文信息处理国际会议》 | 2007年
摘要：所谓话语标记,主要是指现场即席话语中,用以标记话语连贯,传递话语互动信息的语言(如嗯、呃、啊、这个、那个)及非语言手段(如点头、身势等行为手段)。本论文对话语标记的重要一类——"嗯"、"啊"类话语标记进行了研究,对其从话语功能层面、话轮层面、情感心理层面和语音层面进行了系统研究,并取得了一系列发现。
33.中文报刊广告语的言语行为分析
- 田甜
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文在奥斯汀和塞尔的言语行为理论框架下,对带有强烈劝说力的广告语言进行分析。收集15期《洛阳晚报》中的104条醒目标题广告语,进行分类统计发现,中文报刊广告主要体现了间接言语行为,并以断言、承诺、表情行为为主.这一分布特点与言语行为特点、中国传统文化、消费者心理等多种因素有关.
34.中文短文本流的快速编码识别算法
- 龚才春;中国科学院研究生院;张华平;许洪波;程学旗;白硕
- 《第七届中文信息处理国际会议》 | 2007年
摘要：提出了一种面向中文短文本流的快速编码识别算--CodeFinder.CodeFinder构造一个编码识别专用词典,并对每个词语关联一个编码可信度。扫描待识别文本并计算文本在各种可能编码形式下的编码可信度,即可确定文本的最终编码形式。实验表明,CodeFinder识别准确率非常高,只需要很短的文本即可完成编码识别过程,对文本的边界不敏感,适合于中文短文本流的编码识别。
35.蒙古文信息熵和拉丁转写研究
- 那日松;淑琴
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文主要是对26万多词的蒙古文拉丁转写语料中的蒙古文名义字符进行信息熵的计算,并给出蒙古文名义字符的信息熵和蒙古文语料中使用拉丁转写存在的问题。
36.一种两阶段的中文命名实体识别方法
- 何楠;毛新年;董远;北京法国电信研发中心有限公司;王海拉
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文提出了针对中文命名实体识别任务的两阶段方法。第一阶段应用条件随机场模型检测实体边界；第二阶段应用最大熵模识别实体类型。相对于同时进行边界检测和类型识别的传统一阶段方法,两阶段大大减小了条件随机场训练的计算复杂性(缩短了训练时间,减小内存消耗,生成模型更小)。SIGHAN 2006 MSRA和CityU封闭测试的结果显示,二阶段较一阶段仅仅损失1％的性能,却将计算复杂性降低80％以上.
37.基于词共现概念的文本分类研究
- 倪茂树;林鸿飞
- 《第七届中文信息处理国际会议》 | 2007年
摘要：传统的文本分类的特征选择都是以词为单位,根据计算特征词的权重建立向量空间模型,进而表示所有文档.但这种向量空间模型中的每个词之间是相互独立的,词和词之间的语义关系没有体现出来。本文基于数据挖掘里的关联规则理论,提出一种将词共现概念和传统VSM一起作为文档新特征的方法,并应用在文本分类中。实验表明,该方法不仅比单纯的基于关键词传统VSM更能代表文档的语义和内容,而且还具有较好的分类结果。
38.知网在文本分割算法中的应用
- 朱海军;张桂平;蔡东风;王炜华
- 《第七届中文信息处理国际会议》 | 2007年
摘要：文本分割在信息检索、信息获取、自动利用了文本表层的词汇重现信息,分割效果并不理想。本文在TextTiling算法的基础上,通过分析分割结果,发现仅利用词汇重现信息,难以准确体现主题的连续性。提出了利用知网引入词汇的语义信息,对传统的TextTiling算法进行了改进.实验结果表明,改进的TextTiling方法的召回率和准确率都有了明显提高。
39.基于背景知识的SVM文本分类
- 唐明珠;张远平;杨佳
- 《第七届中文信息处理国际会议》 | 2007年
摘要：文本分类在文本挖掘和文档管理中扮演着重要角色.在文本预处理阶段引入核本体Wordnet丰富文本的表示形式,提高了文本表示的泛化能力。同时给出了次概念的定义。然后采用支持向量机对文本进行分类,最后在标准文集Reuters-21578上的实验结果表明,在文本分类中与没有使用本体相比,使用本体的某些策略能取得更好的效果。
40.多层级一体化语料库管理系统的开发
- 胡凤国
- 《第七届中文信息处理国际会议》 | 2007年
摘要：如何提高语料库的建设速度和使用效率,是语料库建设中的一个重要问题。本文提出了语料生命周期的思想,讨论了在这种思想指导下开发的多层级一体化语料库管理系统。实践表明,围绕语料生命周期进行多层级一体化语料库管理系统的开发,可以提高语料库的建设速度并改善其使用效率。
41.基于依存语法的语料库标注研究
- 陈波;襄樊学院中文系
- 《第七届中文信息处理国际会议》 | 2007年
摘要：依存关系的标注一直是近年来计算语言学界语言资源建设的的主流之一。本文从理论研究和实践研究两大方面对国内外依存语法标注的进展做了一个大致梳理,针对汉语依存语法标注的研究现状,提出了一些建议。
42.基于用户浏览行为和查询扩展的信息检索模型
- 黄名选;张师超;悉尼科技大学信息技术学院;严小卫;悉尼科技大学信息技术学院;黄发良
- 《第七届中文信息处理国际会议》 | 2007年
摘要：Web信息资源的急剧膨胀,信息过载成为人人面对的问题,如何及时准确、高效地从信息的汪洋大海中寻找到所需的信息是信息检索研究的热点之一。本文提出了一种基于用户浏览行为和查询扩展的信息检索模型,给出了它的设计思想及其算法和实现的关键技术。实验结果表明,该模型有效,能提高信息检索性能,有很高的实际应用价值和广阔的前景。
43.基于支撑向量机的人物关系抽取
- 韩冰;林鸿飞
- 《第七届中文信息处理国际会议》 | 2007年
摘要：互联网逐步的渗透在人们的社会生活中,人们试图通过网络扩展交往的范围,寻找自己感兴趣的人并与之取得联系。本文定义了8种人物关系,通过分类的方法实现了自由文本中人物关系的自动抽取.在特征词的选取上,根据抽取对象自身的特点提出了人物主体上下文、人物主体上下文词性、人物分组数与核心特征词四种选择方法,其中核心特征词是结合bootstrapping算法选取的。实验结果表明：分类的方法适合人物关系的抽取,人物分组与核心特征词的选择有利于实验结果的提高。
44.蒙古语标准音测试系统的研究
- 孟和吉雅;白音门德;敖其尔
- 《第七届中文信息处理国际会议》 | 2007年
摘要：蒙古语是中国蒙古族自治地方的通用语言之一,并且也存在多种方言.所以蒙古语的标准音水平测试工作对蒙古语的交流非常有意义。在蒙古语标准音的水平测试工作中,存在测试结果的分歧。本论文中主要讨论一种能够用计算机来判定蒙古语的发音是否标准的思路和方法。
45.汉语复合句第二小句中零形主语的同指制约
- 齐冲
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文分析了汉语复句中第二小句的主语在被省略的情况下,第一小句中的主语或宾语成为其同指项(先行词)的条件是什么.我们从语法和语义这些语句内在的层面出发,根据不同性质的动词在句中的位置设定了不同的复句型式,并利用一定数量的动词语料对各模型进行替换检验以测试其合法性。结果显示出零形主语同指制约的规律性,充分证明了主语先行词的优先权现象,并验证了动词语义角色在回指中起到的作用。
46.以关联为主的答句衔接语模式及特点
- 孙雁雁
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文认为以关联为主的答句衔接语模式的种类有词、固定短语或固定结构、固化小句、标记语引导四种；其特点表现为不同的答句衔接语模式受制于不同类型的问句、引导不同的省略形式、形成连续统层级。
47.人体形容词隐喻的类型与语言表现形式
- 李文莉
- 《第七届中文信息处理国际会议》 | 2007年
摘要：人体隐喻是人类最基本最普遍的隐喻方式之一.人体词语之一的形容词隐喻是一种重要的隐喻,它除了向非人体认知域投射外,还向人体内部其他认知域投射,其侧重点主要在于空间特征、时间特征、外貌特征、感觉特征、机能特征等几个方面,并且以话语形态和词语形态两种语言形式表现出来:前者以比拟辞格表现出来,后者以隐喻义项或偏正结构的词语形式表现出来。
48.'在verb着'构式研究
- 徐晶凝
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文在语料库分析的基础上,对"在verb着"构式中的动词小类、构式的语法意义进行了探讨。指出语篇功能及动词小类是决定"在verb着"构式中"在""着"是否可以自由隐现的重要因素.
49.法律领域用字、术语和标点符号分析
- 那日松
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文对双语法例资料系统(BLIS Bilingual Laws Information System)中获得的七百万词的中文语料进行用字、用词、术语和标点符号的统计分析,并给出他们之间的联系,为进一步进行法律术语自动抽取和相关研究奠定了基础。
50.新词新义产生的轨迹
- 刘金凤
- 《第七届中文信息处理国际会议》 | 2007年
摘要：新词语是词汇系统的重要组成部分,近年来受到越来越多的关注,但是新词语的研究尚处于开拓阶段,本文试图通过对新词新义产生轨迹的考察,从一种新的、动态发展的角度来审视新词语,从而进一步深化该领域的研究。
51.趋向动词'下来'的语义特点研究
- 李圃
- 《第七届中文信息处理国际会议》 | 2007年
摘要：无论在汉语教学还是在机器翻译中,趋向动词都是一个公认的难点。虽然对它的研究越来越深入,但真正面向对外汉语教学及机器翻译的研究并不多见。本文仅在相关研究的基础上,有针对性地研究一个趋向动词--"下来"的句法特点、语义特点和各个意义出现的条件及形式标志,以求探索趋向动词研究的新路子,为第二汉语教学及机器翻译提供参考。
52.现代汉语动词重叠式的句考察
- 薛宏武
- 《第七届中文信息处理国际会议》 | 2007年
摘要：在句内动词基本能重叠.它是个体现主体意向的语义语法范畴.其成型或成活的环境是意向句.非自主动词重叠只在典型的主观意向句内进行；自主动词从类型与数量看,倾向出现在主观意向句内。重叠意义在于体现主体能动意向,非自主动词重叠是反映主体试图使非自主的行为状态实现自主化的强烈意愿；自主动词重叠,在主观意向句内是强化主体行为的能动意向,客观句内是临摹行为反复情状,表现的是趋零意向的约量义。
53.用CFG文法研究汉字结构
- 裴亚军;冯志伟
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文运用上下文无关语法研究汉字形体结构,并将研究结果通过PROLOG程序设计语言和图形接口软件CTT加以实现。本文既是对汉字研究方法的创新,也从一个侧面证明汉字构形学理论关于汉字结构系统性的认识是科学准确的。
54.语篇标注中的事件标注研究
- 邹红建;杨尔弘
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文对表达事件的语篇,尝试以事件为基本单位进行标注,以事件标注为核心,探索语篇的标注.对事件这一概念进行探讨,进一步明确了语篇标注中事件的性质、事件模式的提取、事件的标注方法等。初步实验表明,以事件作为语篇标注的一个基本单位,具有实际的可操作性以及文本内容表示的精确性。
55.基于引文和内容分析的学科研究热点预测
- 宋丹;师庆辉;薛德军;林鸿飞
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文提出了一种依据图的"添加有选择性"来预测后续论文最有可能引用哪些现有的文章(热文)的方法,依据论文与参考文献间的内容相关性,利用主成分分析的方法对热文进行内容分析,进而达到对后续论文中的研究热点进行预测。实验证明这种方法是有效的。
56.利用语言概念表示的作者写作风格分类研究
- 张全;张运良;中国科学院声学研究所;袁毅
- 《第七届中文信息处理国际会议》 | 2007年
摘要：文本分类是文本信息自动处理的重要研究领域,文本作者风格的识别处理可以作为一类特殊的文本分类处理。本文针对自然语言表层信息特征的数据稀疏缺陷,引入了HNC的概念基元表述体系作为特征载体,以KNN算法作为基础,进行了汉语文本作者的识别处理研究。实验数据表明,本文的处理模式达到了较高的成功率,具有可行性。
57.基于短语模式的评论性文章情感分类研究
- 马月珠;王枞
- 《第七届中文信息处理国际会议》 | 2007年
摘要：目前主要的文本分类技术都是基于针对这一问题,本文提出了一种面向语义的文本情感分类技术,通过分析文本中的特定短语模式来获得文本的情感特征,对于文章中的复杂句式进行语义层的深入分析。实验证明,这种方法很好地体现了文本中的语义信息,这种基于短语模式的分类算法准确率达到95％,召回率达到93％。
58.'蒙古语语义词典'的数据库建设
- 德·萨日娜;王斯日古楞
- 《第七届中文信息处理国际会议》 | 2007年
摘要："蒙古语语义词典"主要研究现代蒙古语词语语义关系的数据结构及其电子词典的建立.根据目前蒙古文文本处理中句法分析、句义分析、相似度计算等所需求的语义类型,我们对词典中收录的词条进行语义分类和语义关系分析两方面的详细描述。即首先要建立蒙古语语义分类系统的数据库和语义关系网的数据库两大库,词典由一个管理系统来进行维护和管理。该论文作为词典建设的初步研究主要探讨词典中两大数据库的建立及有关理论问题。
59.三字词中类词缀知识库的构建
- 曾立英
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文针对类词缀在三字词中能产性强的特征,提出构建一个三字词的类词缀知识库.我们对《现代汉语语法信息词典》数据库的8万多词语进行了抽取,共有13778个三字词,然后综合考虑词频、语法结构、读音、义项等诸多因素,分别建立三字词的类后缀库和类前缀库,并把我们所建立的类词缀知识库放到《人民日报》1998年上半年语料库中去检验、补充.
60.香港法律汉英双语语料库XML自动标注
- 张霞;昝红英;揭春雨;张坤丽;范明
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文报告对汉英双语香港法律条文内容及层次结构特征进行XML自动标注的工作。标注好的语料库的整体结构与实际法律逻辑组织结构相同,并且利用标记信息实现条文内容的检索定位。本文的XML双语语料标注遵照国际语料库编码标准XCES,目前在中国关于语料标注遵照国际语料库编码标准XCES的专门报道较少。
61.基于DCC的术语定义标注语料库研究
- 王强军;张普
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文介绍了一个基于动态流通语料库(DCC)的术语释义信息标注语料库和针对语料库建设所开发的辅助软件系统。语料库建设过程分为如下几个步骤:原始语料收集、标记集确定、语料标注和辅助软件开发等几部分.在标注语料库中标出的内容有术语和它的定义或解释性语句,本文还对标注结果进行了介绍。本研究所产生的语料资源可作为术语提取和定义识别的训练语料和测试语料,也可作为专业领域知识本体构建的结构化知识来源.
62.基于知识库的现代汉语数量短语的识别
- 张玲;熊文;李义杰;刘勇
- 《第七届中文信息处理国际会议》 | 2007年
摘要：数量短语的识别是现代汉语语句分析的一个局部难点。现代汉语中数词千变万化,量词的种类繁多,数量短语的组合方式多样。本文以识别数量短语为立足点,在探讨数量短语构成模型的基础上构建了一个知识库,并把这一知识库运用于识别系统。实验结果表明建立知识库是解决数量短语识别的有效方法,召回率和正确率分别为98.7％和90.9％。
63.基于语料库的OUTCOME和CONSEQUENCE同义词对比研究
- 张白
- 《第七届中文信息处理国际会议》 | 2007年
摘要：同义词一直是英语词汇教学中的重点和难点。本文以OUTCOME和CONSEQUENCE这两个同义词为例,利用FLOB语料库对其词频、类联接及语义韵进行定量统计和分析,并与中国英语学习者语料库CLEC(Chinese Learner Eng1ish Corpus)中的相应情况进行对比,找出中国学习者在同义词使用上相对于英语本族语者的不足,并进一步指出语料库可以成为同义词教学的一个重要手段.
64.基于Web的民文信息检索中维、哈、柯文关键词的预处理
- 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉
- 《第七届中文信息处理国际会议》 | 2007年
摘要：基于Web的信息检索中,用户希望的是得到与关键词(key words)相关的,准确而全面的搜索结果,而基于Web的民文信息检索中深入研究本民族语言特征并对搜索关键词进行一些必要的预处理对民文搜索引擎搜索结果的准确性,全面性是非常重要的。本文介绍了维吾尔文,哈萨克文和柯尔克孜文的语言特征并较深入的研究了维吾尔文,哈萨克文和柯尔克孜文关键词的预处理技术,包括对关键词的检错与纠错,同化(弱化)处理,词根切分技术等。
65.基于Web主题性信息检索的灾难性事件信息抽取系统
- 钟涛;陈群秀
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文介绍了一种以灾难性事件为研究背景,综合信息检索、Web挖掘等多方面知识的灾难性事件信息抽取系统。系统采用了对网页URL相关度评价的收集机制,以框架结构作为信息抽取的工作基础,对灾难性事件进行信息抽取.实验表明这个系统可以自动智能地从Internet中下载各种灾难事件的网页,并将网页中相关的灾难信息抽取出来,实验结果显示其网页下载准确率达到88.7％,F度量值达到78％。
66.文本信息抽取平台的设计与实现——基于机器学习
- 辛欣;李涓子
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文设计了一种可行的通用文本信息抽取平台的框架,使得用户可以在平台上轻易的针对不同数据集尝试不同机器学习算法进行信息抽取.按照该框架,我们开发了一个信息抽取平台原型:KEGSMART.它集成了"手工标注","抽取结果分析与比较","应用演示输出"三个可视化工具和"支持向量机","条件随机场"两种机器学习算法。两个抽取任务分别应用不同的算法在平台上实验,实验结果验证了该平台的实用性。
67.动词'打'本义的结构描写及其同义词群建构——一种人机共享的'词群-词位变体'研究初探
- 萧国政
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文认为词义自动标注是语言处理新的奋斗目标,而实现这一目标的首要任务是同义词群的建构。同义词群建构面临词义科学描写与词群构成模式两大难题。本文通过汉语动词"打"的本义(打1)词义的分离、描述,介绍了在特征性义素分析基础上,对多义词词义进行"语法-语义"分析的方法；通过建立打1语义词位,描述打1的上位变体、下位变体、同位变体、邻位变体及其同义词群系统,展示了新的同义词群构成模式理论。
68.一种中文分词后处理反馈算法
- 高嵩;周强
- 《第七届中文信息处理国际会议》 | 2007年
摘要：分词错误会对未登录词识别产生严重干扰.为解决该问题,本文提出一种对分词结果中的未登录词进行分类,获取分词结果中未登录词的可信度,并将结果反馈至分词程序的算法。分词程序可以据此判断是否应当重新进行分词.实验结果表明算法作为分词程序的辅助,有效的避免了分词错误对未登录词识别的影响,提高了分词算法的整体性能,同时可以从文本中抽取出大量的高可信度的未登录词进行后续处理或研究。
69.面向机器识别的现代汉语副词用法规则问题研究
- 郝丽萍;昝红英;张坤丽;范明
- 《第七届中文信息处理国际会议》 | 2007年
摘要：副词用法多样,已有的副词研究大都是面向人用的,很难直接用于自然语言处理的实际应用中。本文从副词的实际用法入手,调整和完善了副词用法信息词典,构建了面向机器识别的规则库,并对用法信息词典中的部分例句进行了自动标注,基本形成了"三位一体"虚词知识库的雏形.
70.论'X从小Y'的词切分——'从小'语义指向计算机识别的再思考
- 赫琳
- 《第七届中文信息处理国际会议》 | 2007年
摘要："X从小Y"有4种切分可能。如果"X从"成词,"X从小Y"切分为"X从/小Y".如果"X从"不成词:若Y为"到"或"往","X从小Y"切分为"X/从/小/Y"；若Y为"(名词性成分+)就","X从小Y"切分为"X/从小/Y"；若Y为动宾结构,"X从小Y"切分为"X/从小/Y",若Y不是动宾结构,"X从小Y"切分为"X/从/小Y".
71.基于领域句类的句群处理研究
- 缪建明;张全
- 《第七届中文信息处理国际会议》 | 2007年
摘要：知识支持的好坏直接对于句群处理的实现起到举足轻重的作用。本文介绍了在HNC语义网络基础上,通过使用领域句类的知识表示方法,实现句群语境信息的有效提取,最终完成句群处理的方法。最后,通过实例句群,说明这种方法有助于自然语言理解中句群的处理。
72.基于配价模式的汉语依存句法分析
- 刘海涛;胡凤国
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文引入一种基于配价模式的依存句法分析方法,并使用XDG形式化体系和XDK软件包进行了汉语句法分析实验。在本文提出的配价模式中,不仅包括补足语,也包括说明语,不仅考虑了价语的支配能力,也考虑了其被支配的能力。
73.疑问范畴中形式与标记的组合计算
- 陈振宇
- 《第七届中文信息处理国际会议》 | 2007年
摘要：现代汉语中有五种符号与疑问范畴有关:①疑问形式,输入命题,输出问题；②非疑问形式,输入问题,输出命题；③泛非疑问形式,无论输入什么都输出命题；④疑问标记,输入问题,输出问题；⑤非疑问标记,输入命题,输出命题。通过句法分析和澄清它们的作用范围,我们运用合并运算,可以知道它们的组合在现代汉语中是否合法。
74.一种新改进的句子相似度计算方法
- 周法国;杨炳儒
- 《第七届中文信息处理国际会议》 | 2007年
摘要：计算句子的相似度在机器问答系统,基于实例的机器翻译,文本分类等自然语言处理的许多领域中都有着非常重要的作用。该文对基于相同关键词的句子相似模型做了进一步的改进,包括关键词抽取,以及在句子相似度的定义中引入同义词以及近义词的情形.实验结果表明,改进方法比以前方法具有较高的准确率。
75.基于规则的汉语基本块自动分析器
- 周强
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文提出了一种规则驱动的汉语基本块自动分析方法,它的主要分析资源是从大规模标注语料库和词汇关联知识库的交互作用中自动习得的融合内部词汇关联和外部语境限制约束知识的分层次、多粒度的基本块规则库.利用其中各条规则的置信度信息,可以有效地驱动汉语真实文本句子的多词语基本块的自动识别过程,同时完成歧义结构自动排歧。初步的实验结果表明,现有分析器可以在95％以上的开放测试语料上达到90％左右的F-measure值,同时又保留了约5％的在现有知识库条件下很难判断的复杂歧义结果供后续分析器选择使用,显示出较好的处理灵活性和有效性。
76.依存结构到二元组合结构的自动转换研究
- 徐忠明;万建成;杨潇
- 《第七届中文信息处理国际会议》 | 2007年
摘要：各种标注体系的树库之间的转换是统计语言学研究的重要内容之一。本文充分利用依存结构的非对称性,中心词明确的特点,并在比较了依存结构同二元组合结构的基础上,总结转换规则,提出了一个从依存结构向二元组合结构自动转换的算法。经抽样检验准确率达到了98.3％。目前该二元组合树库已应用到二元组合文法的句法分析系统中。
77.符号学矩阵及HNC的对偶性概念
- 吴泓缈
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文讨论HNC提出的对偶性与对比性概念。思维始于二分,二项对立是必然,对偶性属于亚里士多德的对立关系.对偶性强调"质"的区别,对比性强调"量"的区别,但在"质"与"量"的背后存在着一个站在某个位上和拥有某种价值观的"我"，二分不足以描述各种现象时,就会衍生出第三项,第四项,最后模糊对偶性与对比性的区别,对此符号学矩阵做出了上佳的描述。
78.现代汉语句子语义成分标注研究
- 亢世勇;许小星;刘金凤;孙茂松
- 《第七届中文信息处理国际会议》 | 2007年
摘要：目前我们的现代汉语句子语义结构系统研究工作已进行到第三个阶段,本文主要总结了在语义成分标注研究中遇到的一些复杂问题,如语义成分的跨句法层次标注、语义成分非典型成员的判别、代词的处理、数量短语的处理、有字句的处理、引用语料的处理等,以及相应的解决策略。
79.多义动词'有'的消歧研究与基于Prolog的自动分析实现
- 张俊萍;冯志伟
- 《第七届中文信息处理国际会议》 | 2007年
摘要：动词"有"是真正意义上的多义词(polysemy),本文依据"潜在歧义理论(Potential Ambiguity theory)"、通过挖掘"有"的上下文句法语义特征,使用复杂特征集(complex features set)描述其上下文的词组类型结构特征和语义选择限制特征,基于Prolog应用Copenhagen Tree Tracer(哥本哈根句法树跟踪显示程序)实现了动词"有"的机器自动消歧。分析所得句子结构树图还可用于中文数字化教学、对外汉语教学(TCFL)等领域.
80.基于Bootstrapping的汉语词义消歧研究
- 李丽双;商敏;黄德根;周惠巍
- 《第七届中文信息处理国际会议》 | 2007年
摘要：提出一种基于Bootstrapping的汉语词义消歧模型。该模型采用贝叶斯分类器作为基本分类器,从小规模的词义标注语料出发,分类器通过对初始标注语料的学习来对未标语料判别义项,可信度高的句子加入标注语料集,这样不断提高分类器的性能,在选取可信度高的句子时采用分组策略。实验表明,在相同的标注语料条件下,采用原始策略和分组策略的Bootstrapping算法较基本贝叶斯算法都取得了更好的分类效果,分组策略Bootstrapping算法的消歧准确率比贝叶斯算法平均提高了3.5％。
81.形容词的情感计算——以曼斯菲尔德的短篇小说《起风了》为例
- 孙爱珍;李晓芬
- 《第七届中文信息处理国际会议》 | 2007年
摘要：在文学作品中,形容词在很多情况下承载着作者或小说人物的情感,那么这些形容词是否可以统计从而实现对小说文本情感的计算。本文试图证明这一设想,而且展现这种计算过程,最后提出进一步的假设:是否能够通过人工标注,实现文本情感意义的机器标注和计算。另外,本文还对利用基于心理模型的语用推理假说来确定文本的意义和情感做一例证说明.
82.汉语长距离回指的消解策略
- 王德亮
- 《第七届中文信息处理国际会议》 | 2007年
摘要：长距离回指是回指的一种,其先行语一般在离回指语较远的上文中,从而增加了消解的难度。长距离回指消解一直是自然语言处理中的难题。本文以汉语为个案,旨在探讨长距离回指的消解策略。基于向心理论和脉络理论,提出了汉语长距离回指的消解算法,并且进行了实例分析,结果证明,本算法有一定的优势,解释性更强.
83.汉语依存图库建设研究
- 王跃龙;姬东鸿
- 《第七届中文信息处理国际会议》 | 2007年
摘要：树库的构建是语料库语言学的重要组成部分。本文提出构建一种全新的汉语树库-依存图库.依存图表示可以突破以往树结构表示的局限,更好地表示词语之间的关系,对于汉语特殊结构的表示具有更大的优势。
84.概念变体及其属性的描写
- 胡惮;咸宁学院;沈阳师范大学国际教育学院;李春玲
- 《第七届中文信息处理国际会议》 | 2007年
摘要：作为语义立根之本的大规模语义知识库的研究与建设,是当今计算语言学的重要发展方向之一.国内外现有语义知识库对概念的语用变体以及与概念变体相关的各种微观语义关系普遍关注不够,这种现状成了制约提高语义知识表示颗粒精细度与语义计算准确度的瓶颈。本文阐述概念及其变体之间的关系,主张在词网建构中应注重概念变体的属性描写,并提出描写的具体技术方案。
85.基于一种新的合成核的中文实体关系自动抽取
- 周俊生;南京师范大学计算机科学系;戴新宇;陈家骏;曲维光
- 《第七届中文信息处理国际会议》 | 2007年
摘要：实体关系的抽取是信息抽取中的一个重要问题。针对中文句法分析研究现状,本文首先设计了一种能够直接利用浅层语言特征的混合谱核来描述关系实例的上下文,并给出了基于广义后缀树的高效核计算方法；然后再通过与实体核的组合生成合成核,实现了一种基于新的合成核的中文关系抽取系统。通过在ACE中文评测语料上的实验结果显示,本文所提出的关系抽取方法获得了较好的实验结果,明显优于基于特征向量的关系抽取方法。
86.从日本域名网站中抽取中文网页——基于自然语言处理
- 魏小比
- 《第七届中文信息处理国际会议》 | 2007年
摘要：在日本域名网站里虽然存在不少中文网页,但实际上大多都没被有效利用。如果能从中准确地抽取出来,一定能为使用中文的用户带来许多方便.本研究利用自然语言处理技术,首先对日本早稻田大学和中国北京大学的网页作了全面分析,找出中文句子的特征,然后应用于日本域名1000万网页的解析,最终得到良好结果。
87.基于topic的blog隐含社区发现
- 陈俊杰;毋建军;中国科学院软件研究所开放系统与中文信息处理中心;黄瑞红
- 《第七届中文信息处理国际会议》 | 2007年
摘要：blog使得人们进行情感交流、观点互动变得更为自由,在很大程度上增强了网络信息的互动性。有着共同兴趣或话题的blog之间通过紧密或松散的连接关系,形成独特的blog群体社区.
88.基于文本类别信息熵的中文文档关键词提取
- 张旭成;宋传宝
- 《第七届中文信息处理国际会议》 | 2007年
摘要：批量的对文本进行关键词抽取已经成为了情报检索领域相当有挑战性的工作。在本文中,一种全新的,基于文本统计类别信息熵的关键词抽取技术将被系统的介绍。此外,根据关键词,特别是在互联网上的功能,本文还尝试地给出了一种新的关键词分类:内容关键词、导出词(TAG关键词)和锚点关键词.通过将关键词的功能进行分化后,一套多样的,能满足不同需求的关键词排序算法被系统的提了出来。测评结果显示该关键词系统有较好的准确性、稳定性和高效性。
89.基于标签密度的Web页面正文内容提取方法
- 胡慧君;贾焱;刘茂福
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文提出了一种全新的判定Web页面正文内容的方法--标签密度判定法。该方法基于Web页面由HTML标签组成这一本质特性,采用标签密度,即标签在Web页面文本中含量这一关键阈值,作为区分Web页面文本正文与广告、赞助商链接等其他内容的主要依据。对于大部分的新闻门户网站,只要标签密度阈值设置适当,此方法就能相当准确地提取出Web页面的正文内容。
90.基于FSVM层叠模型的中文命名实体识别
- 孙晓;黄德根
- 《第七届中文信息处理国际会议》 | 2007年
摘要：针对中文命名实体构成的复杂性,提出了一种基于模糊支持向量机的层叠模型。基于最长次长匹配一体化分词标注结果,在底层利用支持向量机基于单字特征进行人名、简单地名和机构名的识别；在高层回到词的层面,利用支持向量机基于词特征对复杂地名和机构名进行识别。通过基于单字和基于词的模糊支持向量机的结合,实现了对命名实体的一体化识别。模糊支持向量机的引入,降低了噪声样本和异常数据的影响,提高了系统识别精度。
91.基于派生文法的日蒙机器翻译系统研究
- 百順
- 《第七届中文信息处理国际会议》 | 2007年
摘要：日语和蒙古语都属于黏着语,在语法方面具有很多相似之处.因此,对于日蒙机器翻译来说,把日语词法分析结果直接转换蒙古语也能期待一定程度的译文.不过,日蒙机器翻译首先面临的问题是日语的活用形处理和蒙古语语音处理。本文,对此利用了主张日语不存在活用形的派生文法,制作了考虑词干和附加成分接续关系的附加成分定义表.根据这个表重新分析日语附加成分.其次,从自然语言处理的角度把蒙古语的语法规则加以整理,进行语音处理,生成蒙古语.然后,又构筑了本系统独自的句法分析器,试做了日蒙机器翻译系统。对日文30个报道的187个句子进行翻译评价的结果,取得了80.2％的正确率。
92.一种基于语音识别的汉语发音评价系统
- 施伟;谢湘
- 《第七届中文信息处理国际会议》 | 2007年
摘要：发音在汉语学习中是至关重要的。本文中提出的对外汉语教学中的发音自动评价系统以语音识别为基础,对学习者的发音进行了客观的评价.通过分析输入语音,提取语音特征并与参考标准进行匹配比较,由评分机制根据相似程度大小给出相应的评价.实验中,由十名评测人员对本系统的性能进行了反馈,评分结果得到了初步认可。
93.宋词字-音转换研究及系统实现
- 赖兴邦;周昌乐
- 《第七届中文信息处理国际会议》 | 2007年
摘要：字音转换问题一直是中文语音合成系统中不可缺少的模块,而确定多音字在文章的特定环境中读什么音是其核心问题。本文以全宋词为研究对象,实现了全宋词的字音转换,其中多音字消歧方法有三种:条件策略,词性策略,格律校正.本系统采用现代汉语字音转换方法和宋词格律特点结合来实现,其中宋诃字音转换的多音字标注准确率提高到96.89％。
94.基于HNC语境理论的文本分类
- 王文峰;唐兴全
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文用HNC语境理论来分析现在中文信息处理的一个热门话题--中文文本分类.HNC理论认为只有深入到语境层面,理解语句及篇章,才能更好的完成文本分类的工作。本文介绍了一种新的文本语义形式化模型--语境框架.语境框架是一个三维的语义描述,它把文本内容抽象成领域(静态范畴)、情景(动态范畴)、背景(褒贬、参照等)三个框架.并在语境框架的基础上,设计实现了文本特征提取算法。
95.基于藏语语音学知识的语音端点检测研究
- 李洪波;于洪志
- 《第七届中文信息处理国际会议》 | 2007年
摘要：端点检测是语音识别系统预处理阶段遇到的第一个关键技术。本文综合时域和频域特征,进行藏语语音多极特征参数提取；检测时辅助应用安多藏语语音方言的特殊语音特点和采用自适应机制判别门限,实现了安多藏语语音识别的端点检测方法,形成具有藏语语音特色的一套算法。仿真结果表明在常见的噪声环境下效果较好,算法实现简单,环境适应性较强.
96.基于词干词缀的有限条词的蒙古语语音合成系统的研究
- 孟和吉雅;田会利;敖其尔
- 《第七届中文信息处理国际会议》 | 2007年
摘要：本文以蒙古语的词干词缀作为语音系统的合成基元,采用时域基音同步叠加(TD-PSOLA)和频域基音同步叠加法(FD-PSOLA)相结合的算法,进行合成语音的韵律调整,在拼接过程中使用了硬拼接和软拼接两种方法,生成了一个有限条词的蒙古语语音合成系统。
97.动态多文档自动摘要研究
- 张煜;李素建;欧阳佑
- 《第七届中文信息处理国际会议》 | 2007年
摘要：框架下,本文针对事件发展的动态性提出了一种先进行文档过滤再进行摘要抽取的方法,其中文档过滤的原则为:体现出当前文档集合与历史文档的区别,并提取反映当前文档集合主题的语句.根据文档过滤的原则,引入语句的相似度计算,着重考虑了命名实体及词性对结果的影响。在2007年的文档理解会议(Document Understanding Conference,DUC),利用该方法反馈的评测结果以及我们自己的实验数据显示这种方法对于捕获事件发展的动态性是有效的。
98.普通话水平测试电子语音语料库的开发与建设
- 姜岚;张绍麒;王涛;张洪沼;张传东
- 《第七届中文信息处理国际会议》 | 2007年
摘要：以大规模真实、清晰、明确的原始测试语音语料信息为基础,建立的一个运用计算机和计算机技术辅助语音研究的工作系统。该系统所建立的原始语料库,为保存和提取自然状态的测试语音语料提供真实文本,实现了语音“活鲜”和语料跨时空、连续存储.建立在该库之上的研究平台,可在不同理论指导下,根据不同的研究目的,使用不同的工具软件,对原始语料进行加工处理,生成所需要的数据库.计算机与计算机技术在普通话测试语音研究中的应用,将会大大促进语言和测试研究的现代化。
99.藏文文本规范问题讨论
- 于洪志;杨博
- 《第七届中文信息处理国际会议》 | 2007年
摘要：藏语文本规范化是指通过对藏文文本上下文分析,把其中的数字、简写符号或者特殊语义块识别出来,给出它们在规范化藏文词表的规范写法。本文针对在藏语语音合成中遇到的藏文文本问题,对藏文文本规范化进行了界定；给出了藏文词汇排序算法的数据结构和流程；研究了藏语非规范文本块类型、模式,藏文文本分析器、藏文文档结构、文本块语义形式和数据流程；对非规范藏文文本进行文本块切分,通过词法分析器和语义识别器,实现藏文文本规范化。
100.中文博客标签的若干统计性质
- 刘知远;司宪策;郑亚斌;孙茂松
- 《第七届中文信息处理国际会议》 | 2007年
摘要：随着Web2.0理念日益深入人心,博客作为一种网络日志的形式,成为网络上的主要应用之一.而主要出现在博客、网络相册等系统上的,依靠大量用户使用自由选择的词汇作为标签(Tag)来对事物进行标记的人工分类的"大众分类法"也逐渐成为研究热点。本文将焦点集中在中文博客标签上,着重考查其统计性质、齐夫定律和复杂网络性质,从多方面初步了解中文博客标签的性质和特点。