首页> 外文期刊>International Journal Information Theories and Applications >Логико-лингвистическая модель генерации фактов из текстовых потоков информационной корпоративной системы
【24h】

Логико-лингвистическая модель генерации фактов из текстовых потоков информационной корпоративной системы

机译:从信息公司系统的文本流生成事实的逻辑语言模型

获取原文
           

摘要

Подсистема накопления и генерации фактов представляет основу для принятиярешений и проведения бизнес-разведки интегрированной корпоративной системы. Причинаотносительно малого количества систем генерации фактов из слабоструктурированнойтекстовой информации заключается в отсутствии четких алгоритмов извлечения фактовиз текста, проверки их на непротиворечивость и невозможности семантическойинтерпретации полученных результатов, что не позволяет объединить их в общее единоепространство фактографической информации. В работе предлагается логико-лингвистическая модель идентификации и экстракции фактов, позволяющая получитьпространство фактов, динамически наполняемое из англоязычного текстового контентаинтегрированной корпоративной системы. Факт записывается в виде триплета: Subject -Predicate - Object, в котором предикат представляет отношение, а субъект и объектопределяют два предмета или понятия. Такой факт записывается в виде двухместногопредиката в логике первого порядка. Выделяются два типа фактов: факты, описывающиесвязь двух сущностей, одна из которых определяется как субъект, а вторая как объектпредикатного действия, и факты, фиксирующие значение заранее определенного свойства.Математическая модель, связывающая информацию, содержащуюся в определениисмысловых связей, с элементами поверхностной структуры предложений английского языкабазируется на формальном аппарате алгебры конечных предикатов. Семантические связимежду извлеченными понятиями текста, выражающие тот или иной факт, определяютсячерез предикат, связывающий категории наличия предлога после глагола, существованиеапострофа, определяющего притяжательный падеж, расположения понятия в предложении,связи которого определяются, наличия глагола to be и формы основного глагола. В статьерассмотрен вид фактов, представляющий утверждение о некотором обладании,приобретении (или наличии) у некоторой сущности субъекта некоторой сущности объекта,и выделены связанные с ним факты второго типа, определяющие атрибут времени, места,способа действия и т.д. Разработана программная имплементация полученной модели,представляющая собой веб-приложение, на вход, которого поступают текстовые потокиразнородных источников информационной системы, а на выходе формируется базовое пространство фактов интегрированной корпоративной системы
机译:事实的积累和生成子系统代表了决策和进行集成公司系统的商业智能的基础。用于从半结构化文本信息生成事实的系统数量相对较少的原因是,缺少用于从文本中提取事实,检查它们的一致性的明确算法以及对所得结果进行语义解释的可能性,这不允许将它们组合成一个共同的事实信息空间。本文提出了一种识别和提取事实的逻辑语言模型,这使得从集成公司系统的英语文本内容中动态填充事实空间成为可能。事实以三元组的形式编写:主语-谓语-对象,其中谓词表示关系,主语和宾语定义两个主语或概念。这个事实在一阶逻辑中被写为二位谓词。有两种类型的事实:描述两个实体之间关系的事实,其中一个定义为主语,第二个定义为谓词作用的对象,以及固定预定属性值的事实。将语义关系定义中包含的信息与英语句子的表面结构元素联系起来的数学模型。语言基于有限谓词的代数形式形式。表示此事实或事实的文本的抽取概念之间的语义联系是通过谓词来确定的,该谓词将动词后面的介词的存在,确定所有格的撇号的存在,句子中概念的位置,其连接,确定的动词的存在以及主要动词的形式联系在一起。本文考虑了事实的类型,代表了关于从对象的某个特定实体获得某个对象的某个特定实体的某种占有,获得(或存在)的陈述,并着重强调了第二种类型的相关事实,这些事实决定了时间,地点,行动方式等的属性。已经开发了结果模型的软件实现,它是一个Web应用程序,其输入从信息系统的不同来源接收文本流,而输出则形成了集成公司系统事实的基本空间。

著录项

获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号