公开/公告号CN113849481A
专利类型发明专利
公开/公告日2021-12-28
原文格式PDF
申请/专利权人 佟春雨;
申请/专利号CN202111093138.7
发明设计人 佟春雨;
申请日2021-09-17
分类号G06F16/21(20190101);G06F16/22(20190101);G06F16/24(20190101);G06F16/28(20190101);G06F40/166(20200101);
代理机构44504 深圳市兰锋盛世知识产权代理有限公司;
代理人罗炳锋
地址 110000 辽宁省沈阳市沈北新区沈北路49号
入库时间 2023-06-19 13:26:15
技术领域
本发明涉及文字信息结构化处理技术领域,具体为一种基于文字信息结构的数据查询和分析方法。
背景技术
在社会生产及生活中,每天都产生大量的文字信息,记录着组织或个体的各种活动(物质层面和意识层面的)。这些海量的文字信息以成段、成篇、成本成册的形式组织一起存在和存储着,却很难像数字信息一样能被高效地利用。结构化的数字(数据)信息,已经有各种系统和工具可对其进行多维度以及灵活高效的查询、统计、分析等,而非结构化的文字信息目前仍需大量的人力工作来进行查询、阅读、甄别、记忆存储和加工,无法像数字信息一样进行高效的直达结果的查询和分析。
结构化的数字(数据)信息易于统计分析的根本在于其多维性和结果的简明性,而非结构化的文字信息症结就在于维度少和呈现的结果过于繁琐复杂针对现有对文字信息存储、加工和使用方法的不足。文字的载体主要有纸质或电子的书籍、媒体刊物以及专业的记录、报告和文献等,这些文字信息要么成册,要么成篇或成段。当需要调取或分析其中内容时,往往需要大量的时间进行阅读、记忆和加工整理,无法像各类统计数据一样。鉴于此,我们提出了一种基于文字信息结构的数据查询和分析方法。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于文字信息结构的数据查询和分析方法,解决了上述背景技术提到的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种基于文字信息结构的数据查询和分析方法,该方法包括以下步骤:
S1、确定应用领域,对处理的文字信息内容进行初步的判断。
S2、选定文字信息源,据应用领域及具体需求,选定需要研究或系统化整合的文字信息载体。
S3、设定研究分析信息类别,根据对所在领域的理解和具体的应用需求对S2中的文字信息载体进行分析与统计,并对文字信息载体的信息内容进行分类,分类信息类别可分为:文字信息类别、设定时间精度类别、区域地址精度类别、主体分类、情报领域、信息可靠性类别和信息源类别。
S4、数据编辑与整理,安排专门的人员或团队,对S3中分类后的文字信息载体的信息内容进行逐句的编辑、类别标记和存储,编辑后的文字内容只能是句子或句子的分行组合且不能成段落,成为类似数字/值一样的精简结果,编辑过程中要去除分类信息,且去除修饰性的词句,同时减少各类标点符号将句子分开,得到分析数据编辑信息。
S5、信息录入,将S3中的分析信息类别和S4中的数据编辑信息分别进行相关的信息录入,并通过计算机对S4中数据编辑信息进行统计,且通过录入的数据编辑信息和分析信息类别能够查询到文字信息载体信息内容的原始数据。
S6、数据存储,将编辑和标记的信息存入数据库。
S7、数据查询应用,通过计算机对S6中存入数据库的数据进行对比与分析,并通过需查询的数据得到相关的分析信息类别和数据编辑信息。
优选的,S3中所述文字信息类别包括但不限于科技、历史、文化、社会、自然、地理、气候、军事、宗教、经济、情报信息等。
优选的,S3中所述设定时间精度类别包括但不限于世纪、年代、年、月、旬、周、日、日间、夜间、时辰、小时、分钟、秒钟等。
优选的,S3中所述区域地址精度类别包括但不限于大洲、大洋、国家、省、市、州/府、郡/县、乡镇、街道、街路、村落等。
优选的,S3中所述主体分类包括但不限于人物、组织、机构、部门、企业、品牌、产品系列等。
优选的,S3中所述情报领域包括但不限于战略、规划、产品、技术研发、营销、组织认识、投资融资等。
优选的,S3中所述信息可靠性类别包括但不限于如推/预测、传闻/言、观点/判断、事实、构想/规划等。
优选的,S3中所述信息源类别包括但不限于籍、报告、文献、报刊杂志、网站等。
优选的,S2中文字信息载体包括但不限于书籍、报告、文献、报刊杂志、网站等。
(三)有益效果
本发明提供了一种基于文字信息结构的数据查询和分析方法。具备以下有益效果:
(1)、该基于文字信息结构的数据查询和分析方法,将应用领域的文字信息、知识等进行多维性和数字化存储,建立统一的结构化的基础数据库,打破原有的文字载体间的边界,对不同来源及不同形式的文字信息进行有机整合。
(2)、该基于文字信息结构的数据查询和分析方法,可将不同时间及来源的文字内容迅速汇总,大大地提高文字信息获取的完整性和系统性,同时获得所需文字信息的效率得到大幅度的提升。
(3)、该基于文字信息结构的数据查询和分析方法,通过的大量及系统的积累,有助于将公开信息整合并分析成为具有高价值的情报,为各个领域的知识积累、知识学习与传承提供高效的平台,减少重复性的阅读分析工作,更好发展探索性和创造性的工作。
(4)、该基于文字信息结构的数据查询和分析方法,通过系统化的知识整合,既能迅速分析同一主体某一类别特征的时间演化过程,也能分析不同主题同一类别特征的相似和异同,促进各个学科的研究及新知识的发展。
具体实施方式
下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:一种基于文字信息结构的数据查询和分析方法,该方法包括以下步骤:
S1、确定应用领域,对处理的文字信息内容进行初步的判断。
S2、选定文字信息源,据应用领域及具体需求,选定需要研究或系统化整合的文字信息载体。
进一步的是,文字信息载体包括但不限于书籍、报告、文献、报刊杂志、网站等。
S3、设定研究分析信息类别,根据对所在领域的理解和具体的应用需求对S2中的文字信息载体进行分析与统计,并对文字信息载体的信息内容进行分类,分类信息类别可分为:文字信息类别、设定时间精度类别、区域地址精度类别、主体分类、情报领域、信息可靠性类别和信息源类别。
值得注意的是,文字信息类别包括但不限于科技、历史、文化、社会、自然、地理、气候、军事、宗教、经济、情报信息等。设定时间精度类别包括但不限于世纪、年代、年、月、旬、周、日、日间、夜间、时辰、小时、分钟、秒钟等。区域地址精度类别包括但不限于大洲、大洋、国家、省、市、州/府、郡/县、乡镇、街道、街路、村落等。主体分类包括但不限于人物、组织、机构、部门、企业、品牌、产品系列等。情报领域包括但不限于战略、规划、产品、技术研发、营销、组织认识、投资融资等。信息可靠性类别包括但不限于如推/预测、传闻/言、观点/判断、事实、构想/规划等。信息源类别包括但不限于籍、报告、文献、报刊杂志、网站等。
可将不同时间及来源的文字内容迅速汇总,大大地提高文字信息获取的完整性和系统性,同时获得所需文字信息的效率得到大幅度的提升。将应用领域的文字信息、知识等进行多维性和数字化存储,建立统一的结构化的基础数据库,打破原有的文字载体间的边界,对不同来源及不同形式的文字信息进行有机整合。
S4、数据编辑与整理,安排专门的人员或团队,对S3中分类后的文字信息载体的信息内容进行逐句的编辑、类别标记和存储,编辑后的文字内容只能是句子或句子的分行组合且不能成段落,成为类似数字/值一样的精简结果,编辑过程中要去除分类信息,且去除修饰性的词句,同时减少各类标点符号将句子分开,得到分析数据编辑信息。
通过的大量及系统的积累,有助于将公开信息整合并分析成为具有高价值的情报,为各个领域的知识积累、知识学习与传承提供高效的平台。减少重复性的阅读分析工作,更好发展探索性和创造性的工作。
S5、信息录入,将S3中的分析信息类别和S4中的数据编辑信息分别进行相关的信息录入,并通过计算机对S4中数据编辑信息进行统计,且通过录入的数据编辑信息和分析信息类别能够查询到文字信息载体信息内容的原始数据。
S6、数据存储,将编辑和标记的信息存入数据库。
S7、数据查询应用,通过计算机对S6中存入数据库的数据进行对比与分析,并通过需查询的数据得到相关的分析信息类别和数据编辑信息,高效地获得所需地内容。
通过系统化的知识整合,既能迅速分析同一主体某一类别特征的时间演化过程,也能分析不同主题同一类别特征的相似和异同,促进各个学科的研究及新知识的发展。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
机译: 通过鱼眼显示节点,一种基于末端互连节点可视化二维屏幕分层信息结构的方法和装置
机译: 调节磷酸果糖激酶(PFK)催化活性的结合位点和调节剂的结晶学模型,一种设计,选择和生产PFK调节剂的方法,一种基于计算机的方法和相互作用之间的相互作用分析的计算机方法基于计算机的分析方法
机译: 调节磷酸果糖激酶(PFK)催化活性的结合位点和调节剂的结晶学模型,一种设计,选择和生产PFK调节剂的方法,一种基于计算机的相互作用分析方法