中文农业搜索引擎字符编码识别

吴乃宁; 张太红; 白涛

首页> 中文期刊> 《新疆农业大学学报》 >中文农业搜索引擎字符编码识别

中文农业搜索引擎字符编码识别

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对农业网页中汉字编码标识混乱的情况,提出了一种综合运用编码规则和网页文本特征的字符编码识别模型。利用卡方检验算法,结合最小二乘多元线性回归方法,得到了基于网页文本特征的字符识别模型。实验结果显示,在适当的选取阈值(r ＝1,阈值＝属于某一编码的字符数/网页总字符数)和文本特征数(≥65)的基础上,模型准确率达到100％,且结果稳定。%The character encoding identification model comprehensively using encoding rules and Web page text was put forward in accordance with the confused conditions of character encoding identification in Chinese agriculture web page.Using the chi-square test algorithm,combining with the method of least square multivariale linear regression,the model of character identification based on Web page text feature was obtained.The experimental results showed that the accuracy of the model reached 100% and the result was stable on the basis of the appropriate threshold selected (r =1,threshold=the number of characters belonging to a coding/the total number of web page)and the text feature number (≥65).

著录项

来源
《新疆农业大学学报》 |2014年第5期|420-423|共4页
作者
吴乃宁; 张太红; 白涛;
展开▼
作者单位

新疆农业大学计算机与信息工程学院;

乌鲁木齐 830052;

新疆农业大学计算机与信息工程学院;

乌鲁木齐 830052;

新疆农业大学计算机与信息工程学院;

乌鲁木齐 830052;

展开▼
原文格式 PDF
正文语种 chi
中图分类检索机;
关键词
编码识别; 卡方检验; 多元线性回归; GB2312; Big5;

相似文献

中文文献
外文文献
专利

1. 农业搜索引擎中文分词工具对比 [J] . 赵涛 ,张太红 . 计算机系统应用 . 2016,第004期
2. 基于农业垂直搜索引擎中文分词词典的构建研究 [J] . 张启宇 ,于辉辉 ,陈英义 . 广东农业科学 . 2015,第003期
3. 智能中文农业垂直搜索引擎体系的架构与实现 [J] . 陈燕红 . 湖北农业科学 . 2014,第012期
4. 中文农业信息垂直搜索引擎的设计与实现 [J] . 夏斌 ,丁立 ,乔红波 . 河南农业大学学报 . 2010,第006期
5. 基于SDD算法的中文农业搜索引擎设计与实现 [J] . 周国民 ,樊景超 ,周义桃 . 农业图书情报学刊 . 2008,第011期
6. 基于SDD改进算法的中文农业搜索引擎的研究 [C] . 樊景超 ,周国民 ,周义桃 . 2005年中国农业工程学会学术年会 . 2005
7. 中文分词在农业垂直搜索引擎中的应用研究 [A] . 白涛 . 2013

中文农业搜索引擎字符编码识别

摘要

著录项

相似文献

相关主题

期刊订阅