首页> 中国专利> 基于组合理论的类自然语言的语义信息抽取方法及其系统

基于组合理论的类自然语言的语义信息抽取方法及其系统

摘要

本发明公开了一种基于组合理论的类自然语言的语义信息抽取方法及其系统,运用先进的语义分析技术,对基于web的大数据进行深度分析和挖掘,在海量的web数据中挖掘有商业价值的信息,可运用于广大中小型企业的商业智能服务领域,可为中小企业提供预测市场需求变化、预测竞争对手的行动、发现新的和潜在的竞争对手、支持技术开发决策、支持营销战术决策等方面的商业智能服务以及产品精准营销服务,并且大大降低了企业商机情报获取成本,提高获取信息的能力,极大的增强企业的竞争力。

著录项

  • 公开/公告号CN104281695A

    专利类型发明专利

  • 公开/公告日2015-01-14

    原文格式PDF

  • 申请/专利权人 安徽华贞信息科技有限公司;

    申请/专利号CN201410537886.3

  • 发明设计人 贾岩;

    申请日2014-10-13

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构34119 合肥市长远专利代理事务所(普通合伙);

  • 代理人程笃庆;黄乐瑜

  • 地址 230000 安徽省合肥市高新区黄山路602号国家大学科技园A502

  • 入库时间 2023-12-17 02:55:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-20

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2014105378863 申请日:20141013 授权公告日:20171215

    专利权的终止

  • 2017-12-15

    授权

    授权

  • 2015-09-23

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141013

    实质审查的生效

  • 2015-01-14

    公开

    公开

说明书

技术领域

本发明涉及数据网络技术领域,尤其涉及一种基于组合理论的类自然语言 的语义信息抽取方法及其系统。

背景技术

随着信息化程度不断加深,企业对“大数据”分析服务的渴求也日益强烈; 互联网持续增长的信息资源蕴含了巨量的具有商业价值的信息,成为重要的商 业智能服务信息源头。现在业界对“大数据”主要关注点仍在企业内部的数据, 而作为大数据的主要载体的互联网,由于数据量庞大、获取难度大、单位价值 相对低、几乎全是文本等非结构数据等难点,其价值并没有被业界充分开发和 利用。

发明内容

为了解决背景技术中存在的技术问题,本发明提出了一种基于组合理论的 类自然语言的语义信息抽取方法及其系统,解决了基于web的大数据分析问题, 不但精准度高、提供语义信息丰富,而且极具实用性和可产业化。

本发明提出的一种基于组合理论的类自然语言的语义信息抽取方法,包括 以下步骤:

获取大数据,将其作为基础数据源;

在所述获取的大数据中查找表达相近意义,或者包涵相近语义信息的语句, 将所述语句的语义元素进行标注;

通过内置语义词典对所述语句中未标记部分进行分析,生成归纳方式;

在所述归纳方式中拣选符合自然语言表达习惯即符合直觉的方式;

根据所述符合自然语言表达习惯的方式对所述语句中未被规则涵盖的语句 进行新一轮迭代,形成一套可理解、可用于语义匹配和文本信息抽取库。

优选地,通过云计算、分布式处理技术、存储技术和感知技术来进行大数 据的采集、处理、存储。

优选地,大数据可以分为互联网大数据,政府大数据,企业大数据和个人 的大数据。

优选地,所述语义词典可以是基于心理学和语言学以用户的认知过程中所 表现出来的义类。

优选地,所述语义词典为一个大规模汉语语义知识库,以数据库文件形式收 录数百万余实词,不仅给出每个词语所属的词类、语义类,而且以义项为单位 详细描述了各种语义搭配限制。

优选地,互联网文本数据分为自然语言描述性,表格描述性及带序号的段 落描述性。

本发明提出的一种基于组合理论的类自然语言的语义信息抽取系统,包括:

获取模块,用于获取大数据,将其作为基础数据源;

标注模块,与所述获取模块连接,用于在所述获取的大数据中查找表达相 近意义,或者包涵相近语义信息的语句,将所述语句的语义元素进行标注;

归纳模块,与所述标注模块连接,用于通过内置语义词典对所述语句中未 标记部分进行分析,生成归纳方式;

拣选模块,与所述归纳模块连接,用于在所述归纳方式中拣选符合自然语 言表达习惯即符合直觉的方式;

数据库生成模块,与所述拣选模块连接,用于根据所述符合自然语言表达 习惯的方式对所述语句中未被规则涵盖的语句进行新一轮迭代,形成一套可理 解、可用于语义匹配和文本信息抽取库。

优选地,大数据可以分为互联网文本大数据,政府大数据,企业大数据和 个人的大数据。

优选地,互联网文本数据分为自然语言描述性,表格描述性及带序号的段 落描述性。

本发明中,以极其类似自然语言的形式描述和标记自然语言文本中的语义 信息,生成基于组合理论的类自然语言规则的文本语义处理系统,以其作为数 据挖掘等技术的输入数据,可充分释放文本信息的价值。运用该系统通过分析 互联网用户的商业行为,实现对企业产品的精准营销服务;帮助企业洞察行业 内及上下游产业的动态趋势,把握商机和规避风险,帮助企业迅速做出科学的 决策等。

附图说明

图1为本发明实施例提出的一种基于组合理论的类自然语言的语义信息抽 取方法流程图;

图2为本发明实施例提出的一种基于组合理论的类自然语言的语义信息抽 取系统结构图。

具体实施方式

如图1所示,本发明实施例提出了一种基于组合理论的类自然语言的语义 信息抽取方法,包括以下步骤:

步骤101,获取大数据,将其作为基础数据源。例如,可以通过云计算、分 布式处理技术、存储技术和感知技术来进行大数据的采集、处理、存储;其中 大数据可以分为互联网的大数据,政府的大数据,企业的大数据和个人的大数 据。

步骤102,在所述获取的大数据中查找表达相近意义,或者包涵相近语义信 息的语句,将所述语句的语义元素进行标注。

步骤103,通过内置语义词典对所述语句中未标记部分进行分析,生成归纳 方式。

步骤104,在所述归纳方式中拣选符合自然语言表达习惯即符合直觉的方 式。

步骤105,根据所述符合自然语言表达习惯的方式对所述语句中未被规则涵 盖的语句进行新一轮迭代,形成一套可理解、可用于语义匹配和文本信息抽取 库。

其中,步骤103中的语义词典可以是基于心理学和语言学以用户的认知过 程中所表现出来的义类,而并非如传统的词典一样是基于历史学按照字母的顺 序排列;也可以是一个大规模汉语语义知识库,以数据库文件形式收录数百万余 实词,不仅给出每个词语所属的词类、语义类,而且以义项为单位详细描述了 它们的各种语义搭配限制。收录了几万个通用领域内的实词的语义词典,共有12 个数据库,其中包含全部词语的总库1个,每类词语各建一库,计11个。每 个库文件都详细刻画了词语及其语义属性的二维关系。总库中包括词语、拼音、 同形、义项、语义类、词类、子类、兼类等8个字段。每类词的特有属性填在 各类词库中,如名词库设15个属性字段,动词库设16个属性字段等。语义分 类的突出特点就是分类的深度与广度取决于语法分析的需要。应用语义知识应 着重于解决那些仅靠语法规则难以解决的问题。因而语义分类是在词的语法分 类基础上进行的,并且只对名词、动词、形容词等实词进行语义分类描述,而 那些带有明显标志的、通常用句法形式就可以表示的语义关系,如各类虚词, 则不作为语义分类研究的对象。

本发明中,由于语义描述规则本质上是以长句子的、可理解规则形式存在, 有效抑制机械的规则匹配导致的错误和歧义,准确性高。可将互联网文本数据 分为自然语言描述性,表格描述性及带序号的段落描述性,模型通用性强。规 则编辑成本低廉,受过良好基础教育者即能胜任规则编辑及调试工作,实用性 和直观性。描述非常贴近自然语言,且有良好的可视化界面支持,编辑、人员 易于上手。正向反馈:人工编辑规则,可用于增强语义分析引擎,语义分析引 擎反过来,进一步增强候选规则集的质量。层次性和粒度:系统则可将这些规 则的组成元素细化到短句、词汇,甚至是字符层面。这意味着,可以根据实际 应用场景的需求,提取不同粒度的语义信息。以下是在招投标信息、涉房地产 商情两个领域的应用性结论(多组抽样):

表1 抽取效果对比

对比数据:在准确率和召回率方面,我们的方法表现优秀,且稳定性好。 值得指出的是,数据是从生产环境中获得的,信息抽取是处理链条中靠近末端 一个环节,前端的环节的错误可能会影响数据抽取的质量;涉房地产商数据含 有书写质量无法保证的UGC(用户产生数据,如网友评论等),造成负面指标影 响。总体而言,基于组合理论的类自然语言语义信息抽取系统是实用的、可产 业化的、语义信息丰富的、准确率和召回率高的语义信息抽取系统。

如图2所示,本发明实施例提供了一种基于组合理论的类自然语言的语义 信息抽取系统,包括:获取模块10,用于获取大数据,将其作为基础数据源; 标注模块20,与所述获取模块10连接,用于在所述获取的大数据中查找表达相 近意义,或者包涵相近语义信息的语句,将所述语句的语义元素进行标注;归 纳模块30,与所述标注模块20连接,用于通过内置语义词典对所述语句中未标 记部分进行分析,生成归纳方式;拣选模块40,与所述归纳模块30连接,用于 在所述归纳方式中拣选符合自然语言表达习惯即符合直觉的方式;数据库生成 模块50,与所述拣选模块40连接,用于根据所述符合自然语言表达习惯的方式 对所述语句中未被规则涵盖的语句进行新一轮迭代,形成一套可理解、可用于 语义匹配和文本信息抽取库。其中,大数据可以分为互联网文本大数据,政府 大数据,企业大数据和个人的大数据;互联网文本数据分为自然语言描述性, 表格描述性及带序号的段落描述性。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局 限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本 发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护 范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号