首页> 外文学位 >Cleaning safety records using text mining algorithms.
【24h】

Cleaning safety records using text mining algorithms.

机译:使用文本挖掘算法清理安全记录。

获取原文
获取原文并翻译 | 示例

摘要

This Project aims to de-identify the safety records using Natural Language Processing. By removing identifying information, near miss records can be shared across industry participants. The strategy for removing identifying information was to remove proper nouns. Proper nouns were identified by part of speech tagging using NLTK and a list of proper nouns developed by the project. This project achieved high accuracy (98%) and reasonable precision (45%) on records in upper and lower case. The performance on records written in all upper case was significantly worse. The majority of errors were due to capitalization, spelling, uncommon words, maritime specific words, and titles. This document presents twelve approaches to improve algorithm performance.
机译:该项目旨在使用自然语言处理来取消安全记录的标识。通过删除标识信息,可以在行业参与者之间共享未命中记录。删除识别信息的策略是删除专有名词。通过使用NLTK的语音标记和项目开发的一系列专有名词来识别专有名词。该项目在大写和小写记录方面都达到了较高的准确性(98%)和合理的准确性(45%)。大写形式的记录性能明显较差。大部分错误是由于大写,拼写,不常见的单词,海事专用单词和标题引起的。本文档介绍了十二种改善算法性能的方法。

著录项

  • 作者

    Chauhan, Vaibhav.;

  • 作者单位

    Lamar University - Beaumont.;

  • 授予单位 Lamar University - Beaumont.;
  • 学科 Engineering Industrial.
  • 学位 M.E.S.
  • 年度 2012
  • 页码 54 p.
  • 总页数 54
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号