基于串频统计的汉语和孟加拉语专有名萌识别

柯修; 王惠临; 于薇

首页> 中文期刊>现代图书情报技术 >基于串频统计的汉语和孟加拉语专有名萌识别

基于串频统计的汉语和孟加拉语专有名萌识别

开具论文收录证明 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

This paper implements String Frequency Statistics Algorithm proposed by Nagao to build Proper Noun Recognition （PNR） system for Chinese and Bengali languages. First, n - grams are extracted from untagged input corpus, then they are filtered to get rid of redundant sub - strings, using SSR algorithm. Finally, this multilingual PNR system assigns each n - gram a probability of being a proper noun based on the information of their neighboring words and outputs results according to their probability score. The test results show that this system can effectively recognize name of people, places, organizations or institutions from the input text.%基于Nagao串频统计算法实现汉语和孟加拉语专有名词的识别。提取未经过词性标注的中文和孟加拉语语料中的n元串，使用改进的SSR算法过滤多余子串，利用字串的相邻字信息计算所有n元串成为专有名词的概率，并据此筛选专有名词。最后，实现基于串频统计的跨语言专有名词识别系统。实验表明，系统能够从输入的生语料中有效地识别出人名、地名、团体机构名等。

著录项

来源
《现代图书情报技术》|2011年第12期|31-38|共8页
作者
柯修; 王惠临; 于薇;
展开▼
作者单位

北京大学信息管理系,北京100871;

中国科学技术信息研究所,北京100038;

中国科学技术信息研究所,北京100038;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
专有名词识别; 串频统计; Nagao算法; SSR算法;
入库时间 2023-07-25 13:46:04

相似文献

中文文献
外文文献
专利

1. 基于规则、串频统计和上下文关系的现代汉语分词系统的实现 [J] . 潘大志 ,成琥 ,黄青松 . 内蒙古师范大学学报（自然科学汉文版） . 2008,第001期
2. 串频统计和词形匹配相结合的汉语自动分词系统 [J] . 刘挺 ,吴岩 . 中文信息学报 . 1998,第001期
3. 基于对外汉语教学的汉语孟加拉语辅音对比研究 [J] . 韩柳 . 品位·经典 . 2020,第001期
4. 基于串频统计和词形匹配的分词系统 [J] . 沈静 . 中国高新技术企业 . 2008,第013期
5. 基于长度递减与串频统计的文本切分算法 [J] . 姜韶华 ,党延忠 . 情报学报 . 2006,第001期
6. 词典匹配和串频统计相结合在自动主题分析中的应用 [C] . 李素建 ,李芸 ,纪鹭宁 . 全国第八届计算语言学联合学术会议 . 2005
7. 现代汉语中“MQ+N+的+N”语串的组合型歧义研究——面向信息处理的汉语语法研究的一个个例 [A] . 刘云峰 . 2005

基于串频统计的汉语和孟加拉语专有名萌识别

摘要

著录项

相似文献

相关主题

期刊订阅