首页> 外国专利> Domain-specific stopword removal from unstructured computer text using a neural network

Domain-specific stopword removal from unstructured computer text using a neural network

机译:使用神经网络从非结构化计算机文本中删除特定于域的停用词

摘要

Methods and apparatuses are described for analyzing unstructured computer text for domain-specific stopword identification and removal. A computer data store stores unstructured text. A server computing device splits the unstructured text into phrases and generates tokens from the phrases. The server computing device generates a set of bootstrap keywords using the tokens. An artificial intelligence neural network executing on the server computing device generates a stopword training model. The server computing device generates a first set of candidate stopwords using the bootstrap keywords and the stopword training model. The server computing device generates regular expressions using the bootstrap keywords, and generates a second set of candidate stopwords using the regular expressions. The server computing device stores the candidate stopwords in the data store, and removes stopwords from the unstructured text using the data store.
机译:描述了用于分析非结构化计算机文本以用于特定于域的停用词识别和去除的方法和装置。计算机数据存储存储非结构化文本。服务器计算设备将非结构化文本拆分为短语,并从这些短语生成令牌。服务器计算设备使用令牌生成一组引导关键字。在服务器计算设备上执行的人工智能神经网络生成停用词训练模型。服务器计算设备使用引导关键字和停用词训练模型生成第一组候选停用词。服务器计算设备使用引导关键字来生成正则表达式,并使用正则表达式来生成第二组候选停用词。服务器计算设备将候选停用词存储在数据存储中,并使用数据存储从非结构化文本中删除停用词。

著录项

  • 公开/公告号US10628471B2

    专利类型

  • 公开/公告日2020-04-21

    原文格式PDF

  • 申请/专利权人 FMR LLC;

    申请/专利号US201715426958

  • 发明设计人 ARAVIND CHANDRAMOULI;

    申请日2017-02-07

  • 分类号G06F16;G06F16/33;G06N3/04;G06F16/31;G06F40/30;G06F40/216;G06F40/284;

  • 国家 US

  • 入库时间 2022-08-21 11:29:42

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号