首页> 中国专利> 基于组合理论的类自然语言的语义信息抽取方法及其系统

基于组合理论的类自然语言的语义信息抽取方法及其系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于组合理论的类自然语言的语义信息抽取方法及其系统，运用先进的语义分析技术，对基于web的大数据进行深度分析和挖掘，在海量的web数据中挖掘有商业价值的信息，可运用于广大中小型企业的商业智能服务领域，可为中小企业提供预测市场需求变化、预测竞争对手的行动、发现新的和潜在的竞争对手、支持技术开发决策、支持营销战术决策等方面的商业智能服务以及产品精准营销服务，并且大大降低了企业商机情报获取成本，提高获取信息的能力，极大的增强企业的竞争力。

著录项

公开/公告号CN104281695A

专利类型发明专利
公开/公告日2015-01-14

原文格式PDF
申请/专利权人安徽华贞信息科技有限公司;
展开▼

申请/专利号CN201410537886.3
发明设计人贾岩;
展开▼

申请日2014-10-13
分类号G06F17/30(20060101);G06F17/27(20060101);
代理机构34119 合肥市长远专利代理事务所(普通合伙);
代理人程笃庆;黄乐瑜
地址 230000 安徽省合肥市高新区黄山路602号国家大学科技园A502
入库时间 2023-12-17 02:55:12

法律信息

法律状态公告日

法律状态信息

法律状态
2022-09-20

未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2014105378863 申请日:20141013 授权公告日:20171215

专利权的终止
2017-12-15

授权

授权
2015-09-23

实质审查的生效 IPC(主分类):G06F17/30 申请日:20141013

实质审查的生效
2015-01-14

公开

公开

说明书

技术领域

本发明涉及数据网络技术领域，尤其涉及一种基于组合理论的类自然语言的语义信息抽取方法及其系统。

背景技术

随着信息化程度不断加深，企业对“大数据”分析服务的渴求也日益强烈；互联网持续增长的信息资源蕴含了巨量的具有商业价值的信息，成为重要的商业智能服务信息源头。现在业界对“大数据”主要关注点仍在企业内部的数据，而作为大数据的主要载体的互联网，由于数据量庞大、获取难度大、单位价值相对低、几乎全是文本等非结构数据等难点，其价值并没有被业界充分开发和利用。

发明内容

为了解决背景技术中存在的技术问题，本发明提出了一种基于组合理论的类自然语言的语义信息抽取方法及其系统，解决了基于web的大数据分析问题，不但精准度高、提供语义信息丰富，而且极具实用性和可产业化。

本发明提出的一种基于组合理论的类自然语言的语义信息抽取方法，包括以下步骤：

获取大数据，将其作为基础数据源；

在所述获取的大数据中查找表达相近意义，或者包涵相近语义信息的语句，将所述语句的语义元素进行标注；

通过内置语义词典对所述语句中未标记部分进行分析，生成归纳方式；

在所述归纳方式中拣选符合自然语言表达习惯即符合直觉的方式；

根据所述符合自然语言表达习惯的方式对所述语句中未被规则涵盖的语句进行新一轮迭代，形成一套可理解、可用于语义匹配和文本信息抽取库。

优选地，通过云计算、分布式处理技术、存储技术和感知技术来进行大数据的采集、处理、存储。

优选地，大数据可以分为互联网大数据，政府大数据，企业大数据和个人的大数据。

优选地，所述语义词典可以是基于心理学和语言学以用户的认知过程中所表现出来的义类。

优选地，所述语义词典为一个大规模汉语语义知识库,以数据库文件形式收录数百万余实词，不仅给出每个词语所属的词类、语义类，而且以义项为单位详细描述了各种语义搭配限制。

优选地，互联网文本数据分为自然语言描述性，表格描述性及带序号的段落描述性。

本发明提出的一种基于组合理论的类自然语言的语义信息抽取系统，包括：

获取模块，用于获取大数据，将其作为基础数据源；

标注模块，与所述获取模块连接，用于在所述获取的大数据中查找表达相近意义，或者包涵相近语义信息的语句，将所述语句的语义元素进行标注；

归纳模块，与所述标注模块连接，用于通过内置语义词典对所述语句中未标记部分进行分析，生成归纳方式；

拣选模块，与所述归纳模块连接，用于在所述归纳方式中拣选符合自然语言表达习惯即符合直觉的方式；

数据库生成模块，与所述拣选模块连接，用于根据所述符合自然语言表达习惯的方式对所述语句中未被规则涵盖的语句进行新一轮迭代，形成一套可理解、可用于语义匹配和文本信息抽取库。

优选地，大数据可以分为互联网文本大数据，政府大数据，企业大数据和个人的大数据。

优选地，互联网文本数据分为自然语言描述性，表格描述性及带序号的段落描述性。

本发明中，以极其类似自然语言的形式描述和标记自然语言文本中的语义信息，生成基于组合理论的类自然语言规则的文本语义处理系统，以其作为数据挖掘等技术的输入数据，可充分释放文本信息的价值。运用该系统通过分析互联网用户的商业行为，实现对企业产品的精准营销服务；帮助企业洞察行业内及上下游产业的动态趋势，把握商机和规避风险，帮助企业迅速做出科学的决策等。

附图说明

图1为本发明实施例提出的一种基于组合理论的类自然语言的语义信息抽取方法流程图；

图2为本发明实施例提出的一种基于组合理论的类自然语言的语义信息抽取系统结构图。

具体实施方式

如图1所示，本发明实施例提出了一种基于组合理论的类自然语言的语义信息抽取方法，包括以下步骤：

步骤101，获取大数据，将其作为基础数据源。例如，可以通过云计算、分布式处理技术、存储技术和感知技术来进行大数据的采集、处理、存储；其中大数据可以分为互联网的大数据，政府的大数据，企业的大数据和个人的大数据。

步骤102，在所述获取的大数据中查找表达相近意义，或者包涵相近语义信息的语句，将所述语句的语义元素进行标注。

步骤103，通过内置语义词典对所述语句中未标记部分进行分析，生成归纳方式。

步骤104，在所述归纳方式中拣选符合自然语言表达习惯即符合直觉的方式。

步骤105，根据所述符合自然语言表达习惯的方式对所述语句中未被规则涵盖的语句进行新一轮迭代，形成一套可理解、可用于语义匹配和文本信息抽取库。

其中，步骤103中的语义词典可以是基于心理学和语言学以用户的认知过程中所表现出来的义类,而并非如传统的词典一样是基于历史学按照字母的顺序排列；也可以是一个大规模汉语语义知识库,以数据库文件形式收录数百万余实词，不仅给出每个词语所属的词类、语义类，而且以义项为单位详细描述了它们的各种语义搭配限制。收录了几万个通用领域内的实词的语义词典,共有12 个数据库，其中包含全部词语的总库1个，每类词语各建一库，计11个。每个库文件都详细刻画了词语及其语义属性的二维关系。总库中包括词语、拼音、同形、义项、语义类、词类、子类、兼类等8个字段。每类词的特有属性填在各类词库中，如名词库设15个属性字段，动词库设16个属性字段等。语义分类的突出特点就是分类的深度与广度取决于语法分析的需要。应用语义知识应着重于解决那些仅靠语法规则难以解决的问题。因而语义分类是在词的语法分类基础上进行的，并且只对名词、动词、形容词等实词进行语义分类描述，而那些带有明显标志的、通常用句法形式就可以表示的语义关系，如各类虚词，则不作为语义分类研究的对象。

本发明中，由于语义描述规则本质上是以长句子的、可理解规则形式存在，有效抑制机械的规则匹配导致的错误和歧义，准确性高。可将互联网文本数据分为自然语言描述性，表格描述性及带序号的段落描述性，模型通用性强。规则编辑成本低廉，受过良好基础教育者即能胜任规则编辑及调试工作，实用性和直观性。描述非常贴近自然语言，且有良好的可视化界面支持，编辑、人员易于上手。正向反馈：人工编辑规则，可用于增强语义分析引擎，语义分析引擎反过来，进一步增强候选规则集的质量。层次性和粒度：系统则可将这些规则的组成元素细化到短句、词汇，甚至是字符层面。这意味着，可以根据实际应用场景的需求，提取不同粒度的语义信息。以下是在招投标信息、涉房地产商情两个领域的应用性结论(多组抽样)：

表1 抽取效果对比

对比数据：在准确率和召回率方面，我们的方法表现优秀，且稳定性好。值得指出的是，数据是从生产环境中获得的，信息抽取是处理链条中靠近末端一个环节，前端的环节的错误可能会影响数据抽取的质量；涉房地产商数据含有书写质量无法保证的UGC(用户产生数据，如网友评论等)，造成负面指标影响。总体而言，基于组合理论的类自然语言语义信息抽取系统是实用的、可产业化的、语义信息丰富的、准确率和召回率高的语义信息抽取系统。

如图2所示，本发明实施例提供了一种基于组合理论的类自然语言的语义信息抽取系统，包括：获取模块10，用于获取大数据，将其作为基础数据源；标注模块20，与所述获取模块10连接，用于在所述获取的大数据中查找表达相近意义，或者包涵相近语义信息的语句，将所述语句的语义元素进行标注；归纳模块30，与所述标注模块20连接，用于通过内置语义词典对所述语句中未标记部分进行分析，生成归纳方式；拣选模块40，与所述归纳模块30连接，用于在所述归纳方式中拣选符合自然语言表达习惯即符合直觉的方式；数据库生成模块50，与所述拣选模块40连接，用于根据所述符合自然语言表达习惯的方式对所述语句中未被规则涵盖的语句进行新一轮迭代，形成一套可理解、可用于语义匹配和文本信息抽取库。其中，大数据可以分为互联网文本大数据，政府大数据，企业大数据和个人的大数据；互联网文本数据分为自然语言描述性，表格描述性及带序号的段落描述性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于组合理论的类自然语言的语义信息抽取方法及系统 [P] . 中国专利： CN104166682B . 2018.05.01
2. 基于组合理论的类自然语言的语义信息抽取方法及其系统 [P] . 中国专利： CN104281695A . 2015-01-14
3. SYSTEM AND METHOD FOR SEMANTIC INFORMATION EXTRACTION FRAMEWORK FOR INTEGRATED SYSTEMS MANAGEMENT [P] . 美国专利： US2011022562A1 . 2011-01-27

机译：集成系统管理中语义信息抽取框架的系统和方法
4. CLASS Cognitive Load Adaptive Software System. A complex software system and method for managing the continuous improvement of human learning based on evidence-based strategies arising from Cognitive Load Theory. [P] . AU2018236887A1 . 2019-04-18

机译： CLASS认知负载自适应软件系统。一种复杂的软件系统和方法，用于管理基于认知负荷理论的循证策略而不断改进的人类学习。
5. automated music composition and generation system, automated music composition and generation process, automated music composition and generation, toy musical instrument, music accompaniment and music composition toy instrument, automated composition toy instrument system and music generation, electronic information processing and display system, enterprise-class internet-based music composition and generation system, network system for automatically generating and delivering digital composite music, stand-alone music-based music composition and performance system artificial intelligence for use in a music environment, autonomous composition process music generation and performance based on artificial intelligence, autonomous analysis instrument system, network for setting up an automated music composition and generation engine, geometry method music theory system operational parameter mapping, method of composing and generating digital music in an automated manner, parameter transform [P] . BR112018006194A2 . 2018-10-09

机译：自动化音乐创作和生成系统，自动化音乐创作和生成过程，自动化音乐创作和生成，玩具乐器，音乐伴奏和音乐创作玩具乐器，自动化创作玩具乐器系统和音乐生成，电子信息处理和显示系统，企业基于互联网的一流音乐创作和生成系统，用于自动生成和传送数字复合音乐的网络系统，用于音乐环境的基于独立音乐的音乐创作和表演系统人工智能，基于音乐的自主创作过程音乐的生成和表演人工智能，自主分析仪器系统，用于建立自动音乐创作和生成引擎的网络，几何方法音乐理论系统操作参数映射，以自动方式构成和生成数字音乐的方法，参数转换