A combination of active learning and self-learning for named entity recognition on Twitter using conditional random fields

Van Cuong Tran; Ngoc Thanh Nguyen; Fujita Hamido; Dinh Tuyen Hoang; Hwang Dosam

首页> 外文期刊>Knowledge-Based Systems >A combination of active learning and self-learning for named entity recognition on Twitter using conditional random fields

【24h】

A combination of active learning and self-learning for named entity recognition on Twitter using conditional random fields

机译：主动学习和自学习的结合，使用条件随机字段在Twitter上进行命名实体识别

获取原文

获取原文并翻译 | 示例

开具论文收录证明 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

In recent years, many applications in natural language processing (NLP) have been developed using the machine learning approach. Annotating data is an important task in applying machine learning to NLP applications. A common approach to improve the system performance is to train on a large and high-quality set of training data that is annotated by experts. Besides, active learning (AL) and self-learning can be utilized to reduce the annotation costs. The self-learning method discovers highly reliable instances based on a trained classifier, while AL queries the most informative instances based on active query algorithms. This paper proposes a method that combines AL and self-learning to reduce the labeling effort for the named entity recognition task from tweet streams by using both machine-labeled and manually-labeled data. We employ AL queries based on the diversity of the context and content of instances to select the most informative instances. The conditional random fields are also chosen as an underlying model to train a classifier for selecting highly reliable instances. The experiments using Twitter data show that the proposed method achieves good results in reducing the human labeling effort, and it can significantly improve the performance of the systems. (C) 2017 Elsevier B.V. All rights reserved.

机译：近年来，已经使用机器学习方法在自然语言处理（NLP）中开发了许多应用程序。注释数据是将机器学习应用于NLP应用程序的重要任务。改善系统性能的常用方法是在专家注释的大量高质量训练数据上进行训练。此外，可以利用主动学习（AL）和自我学习来减少注释成本。自学习方法基于训练有素的分类器发现高度可靠的实例，而AL根据主动查询算法查询信息量最大的实例。本文提出了一种结合AL和自学习的方法，以通过使用机器标记的数据和手动标记的数据来减少推文流中命名实体识别任务的标记工作量。我们基于上下文的上下文和实例内容的多样性来采用AL查询，以选择信息量最大的实例。还选择条件随机字段作为基础模型，以训练分类器来选择高度可靠的实例。使用Twitter数据进行的实验表明，该方法在减少人工标注工作方面取得了良好的效果，并且可以显着提高系统的性能。（C）2017 Elsevier B.V.保留所有权利。

著录项

来源
《Knowledge-Based Systems》 |2017年第15期|179-187|共9页
作者
Van Cuong Tran; Ngoc Thanh Nguyen; Fujita Hamido; Dinh Tuyen Hoang; Hwang Dosam;
展开▼
作者单位

Yeungnam Univ, Dept Comp Engn, Gyeongbuk 38541, South Korea;

Wroclaw Univ Sci & Technol, Fac Comp Sci & Management, PL-50370 Wroclaw, Poland;

Iwate Prefectural Univ, Fac Software & Informat Sci, Takizawa, Iwate 0200693, Japan;

Yeungnam Univ, Dept Comp Engn, Gyeongbuk 38541, South Korea;

Yeungnam Univ, Dept Comp Engn, Gyeongbuk 38541, South Korea;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类
关键词
Named entity recognition; Active learning; Self-learning; Tweet streams;

机译：命名实体识别;主动学习;自学习;推文流;

相似文献

外文文献
中文文献
专利

1. Disease Named Entity Recognition Using Semisupervised Learning and Conditional Random Fields [J] . Nichalin Suakkaphong, Zhu Zhang, Hsinchun Chen Journal of the American Society for Information Science and Technology . 2011,第4期

机译：使用半监督学习和条件随机场的疾病命名实体识别
2. Precursor-induced conditional random fields: connecting separate entities by induction for improved clinical named entity recognition [J] . Wangjin Lee, Jinwook Choi BMC Medical Informatics and Decision Making . 2019,第1期

机译：前体诱导的条件随机场：通过诱导连接单独的实体以改善临床命名实体的识别
3. Cybersecurity named entity recognition using bidirectional long short-term memory with conditional random fields [J] . Pingchuan Ma, Bo Jiang, Zhigang Lu, Tsinghua Science and Technology . 2021,第3期

机译：网络安全使用双向短期内存命名实体识别，其中包含有条件的随机字段
4. Integrating Bilingual Named Entities Lexicon with Conditional Random Fields Model for Arabic Named Entities Recognition [C] . Emna Hkiri, Souheyl Mallat, Mounir Zrigui IAPR International Conference on Document Analysis and Recognition . 2017

机译：将双语命名实体词典与条件随机字段模型相集成以实现阿拉伯命名实体的识别
5. Semi-supervised Named Entity Recognition: Learning to recognize 100 entity types with little supervision [D] . Nadeau, David. 2007

机译：半监督的命名实体识别：在很少的监督下学习识别100种实体类型
6. Precursor-induced conditional random fields: connecting separate entities by induction for improved clinical named entity recognition [O] . Wangjin Lee, Jinwook Choi 2019

机译：前体诱导的条件随机场：通过诱导连接单独的实体以改善临床命名实体的识别
7. Semi-supervised Learning for Vietnamese Named Entity Recognition using Online Conditional Random Fields [O] . Quang Hong Pham, Minh-Le Nguyen, Binh Thanh Nguyen, 2015

机译：使用在线有条件随机字段的越南名为实体识别的半监督学习

A combination of active learning and self-learning for named entity recognition on Twitter using conditional random fields

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅