A Novel Approach for Designing Indian Regional Language Based Raw-Text Extractor and Unicode Font-Mapping Tool

机译：一种设计基于印度区域语言的原始文本提取器和Unicode字体映射工具的新方法

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Extracting specific information from a collection of documents is called information extraction (IE). In general, the information on the a Web is well structured in HTML or XML format. And the work of IE from structured documents (in HTML or XML), basically uses learning techniques for pattern matching in the content. In this paper, we have proposed a novel approach for interactive information extraction technique. Here, we have described how this approach enables any naive user to extract Indian regional language based document from a Web document efficiently which is quite similar to a standard search engine. It is just similar to a pre-programmed information extraction engine.

机译：从文件集合中提取特定信息称为信息提取（即）。通常，Web的信息以HTML或XML格式结构良好。并且IE来自结构化文档（以HTML或XML）的工作基本上使用了内容中的模式匹配的学习技术。在本文中，我们提出了一种用于交互式信息提取技术的新方法。在这里，我们描述了这种方法如何使任何NAIVE用户能够有效地从Web文档中提取印度区域语言的文档，这与标准搜索引擎非常相似。它类似于预编程信息提取引擎。

著录项

来源
《International e-Conference on Advanced Science and Technology》|2009年||共6页
会议地点
作者

展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类 TP3-53;
关键词
XML; hypermedia markup languages; information retrieval; learning (artificial intelligence); natural language processing; pattern matching; text analysis; HTML; Indian regional language design; Unicode font-mapping tool; Web document; XML format; interactive information extraction technique; learning techniques; raw-text extractor; standard search engine; Corpus; Information Extraction; Mapped;

机译：XML;超媒体标记语言;信息检索;学习（人工智能）;自然语言处理;模式匹配;文本分析;HTML;UNICODE FONT映射工具;Web文档;XML格式;互动信息提取技术;学习技巧;原始文本提取器;标准搜索引擎;语料库;信息提取;映射;

相似文献

外文文献
中文文献
专利

1. Unicode as a multilingual standard with reference to Indian languages [J] . Rajesh Chandrakar The Electronic Library . 2004,第5期

机译：Unicode作为参考印度语言的多语言标准
2. Identification/segmentation of indian regional languages with singular value decomposition based feature embedding [J] . Bhowmick Anirban, Biswas Astik, AnveshKumar Nella, Applied Acoustics . 2021,第May期

机译：基于奇异值分解的印度区域语言的识别/分割基于基于特征的特征嵌入
3. Systematic Approach to Designing Multiple-Valued Arithmetic Circuits Based on Arithmetic Description Language [J] . Naofumi Homma, Yuki Watanabe, Katsuhiko Degawa, Journal of multiple-valued logic and soft computing . 2009,第4期

机译：基于算术描述语言的多值算术电路设计系统方法
4. A Novel Approach for Designing Indian Regional Language Based Raw-Text Extractor and Unicode Font-Mapping Tool [C] . International e-Conference on Advanced Science and Technology . 2009

机译：一种设计基于印度区域语言的原始文本提取器和Unicode字体映射工具的新方法
5. Game-Based Learning for Active Ageing: Co-Designing,Developing and Assessing a Game-Based Tool =Os jogos como estratégia de aprendizagem para um envelhecimento ativo: Co-designing, desenvolvimento e avalia??o de um jogo [D] . Costa, Liliana Filipa Vale. 2017

机译：基于游戏的主动老化学习：共同设计，开发和评估基于游戏的工具=游戏作为主动老化的学习策略：共同设计，开发和评估游戏
6. Integrated approach for designing medical decision support systems with knowledge extracted from clinical databases by statistical methods. [O] . E. Krusinska, A. Babic, S. Chowdhury, 1991

机译：通过统计方法从临床数据库中提取知识来设计医疗决策支持系统的集成方法。
7. Constraint Based Hybrid Approach to Parsing Indian Languages [O] . Bharati Akshar, Husain Samar, Vijay Meher, 2009

机译：基于约束的混合语言解析印度语言

A Novel Approach for Designing Indian Regional Language Based Raw-Text Extractor and Unicode Font-Mapping Tool

摘要

著录项

相似文献

相关主题

期刊订阅