Подсистема накопления и генерации фактов представляет основу для принятиярешений и проведения бизнес-разведки интегрированной корпоративной системы. Причинаотносительно малого количества систем генерации фактов из слабоструктурированнойтекстовой информации заключается в отсутствии четких алгоритмов извлечения фактовиз текста, проверки их на непротиворечивость и невозможности семантическойинтерпретации полученных результатов, что не позволяет объединить их в общее единоепространство фактографической информации. В работе предлагается логико-лингвистическая модель идентификации и экстракции фактов, позволяющая получитьпространство фактов, динамически наполняемое из англоязычного текстового контентаинтегрированной корпоративной системы. Факт записывается в виде триплета: Subject -Predicate - Object, в котором предикат представляет отношение, а субъект и объектопределяют два предмета или понятия. Такой факт записывается в виде двухместногопредиката в логике первого порядка. Выделяются два типа фактов: факты, описывающиесвязь двух сущностей, одна из которых определяется как субъект, а вторая как объектпредикатного действия, и факты, фиксирующие значение заранее определенного свойства.Математическая модель, связывающая информацию, содержащуюся в определениисмысловых связей, с элементами поверхностной структуры предложений английского языкабазируется на формальном аппарате алгебры конечных предикатов. Семантические связимежду извлеченными понятиями текста, выражающие тот или иной факт, определяютсячерез предикат, связывающий категории наличия предлога после глагола, существованиеапострофа, определяющего притяжательный падеж, расположения понятия в предложении,связи которого определяются, наличия глагола to be и формы основного глагола. В статьерассмотрен вид фактов, представляющий утверждение о некотором обладании,приобретении (или наличии) у некоторой сущности субъекта некоторой сущности объекта,и выделены связанные с ним факты второго типа, определяющие атрибут времени, места,способа действия и т.д. Разработана программная имплементация полученной модели,представляющая собой веб-приложение, на вход, которого поступают текстовые потокиразнородных источников информационной системы, а на выходе формируется базовое пространство фактов интегрированной корпоративной системы
展开▼