首页> 中国专利> 词汇表管理装置、词汇表管理系统和词汇表管理方法

词汇表管理装置、词汇表管理系统和词汇表管理方法

摘要

本发明提供一种词汇表管理装置、词汇表管理系统和词汇表管理方法。词汇表管理装置具备:读取部和输出部中的至少一个、存储部、获得部、分析部、用语匹配部和注册部。所述读取部对文档进行读取。所述输出部对文档进行输出。所述存储部可存储根据从文档中抽取的字符串而构成的词汇表。所述获得部从文档中获得文本数据。所述分析部对记述获得部获得的文本数据的语言和构成文本数据的字符串的词性进行分析,并基于分析结果抽取字符串。所述用语匹配部将抽取出的字符串与注册了用语的公共词典进行匹配。所述注册部在抽取出的字符串与公共词典的关键词不一致时,将抽取出的字符串注册到词汇表中。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-04-06

    授权

    授权

  • 2016-05-04

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20150922

    实质审查的生效

  • 2016-04-06

    公开

    公开

说明书

技术领域

本发明涉及用于创建词汇表的词汇表管理装置、词汇表管理系统和词汇表 管理方法。

背景技术

一直以来,对于本国语言或者外国语言的学习,大量阅读是有效方法之一。 当前,为了学习,可以从互联网等地方获得大量的文章来进行阅读。

不过,从互联网上获得的文章等不是以特定水平的学习者为对象而创建的 文章,因此直接使用的话并不适合于语言学习。

因此,例如,在有些技术中,按照英语的每个用语(例如,单词、熟语和 措辞),如果该用语是使用者已掌握的,就在该用语上附上“掌握”的属性。 还有,如果该用语是应该掌握的,就在该用语上附上“掌握中”的属性。于是, 将获得的英语文章变换为简单的英语文章时,并在将获得的英语文章变换为以 学习为目的的英语文章的情况下,使用属性为“掌握”或者“掌握中”的用语 进行变换。还有,在将获得的英语文章变换为以内容理解为目的的英语文章的 情况下,只使用属性为“掌握中”的用语进行变换。

不过,对于上述那样的技术,必须由人来进行收集英语的单词或熟语并注 册到数据库中的操作,非常耗费时间和精力。

发明内容

鉴于以上那样的问题,本发明的目的是提供一种词汇表管理装置、词汇表 管理系统和记录介质,能够减少对注册到词汇表的字符串进行收集的时间和精 力,能够对符合词汇表使用目的的用语进行收集。

为了达到上述目的,本发明的一方式所涉及的词汇表管理装置具备:读取 部和输出部中的至少一个、存储部、获得部、分析部、用语匹配部和注册部。 所述读取部对文档进行读取。所述输出部对所述文档进行输出。所述存储部可 存储根据从所述文档中抽取出的字符串而构成的词汇表。所述获得部从所述文 档中获得文本数据。所述分析部对记述所述获得部获得的所述文本数据的语言 和构成所述文本数据的字符串的词性进行分析,并基于分析结果抽取所述字符 串。所述用语匹配部将所述抽取出的字符串与注册了用语的公共词典进行匹配。 所述注册部在所述抽取出的字符串与所述公共词典的关键词不一致时,将所述 抽取出的字符串注册到所述词汇表中。

为了达到上述目的,本发明的一方式所涉及的词汇表管理系统具备:图像 形成装置和信息处理装置。所述信息处理装置通过网络与所述图像形成装置进 行通信。所述图像形成装置具备:处理部、收集部和发送部。所述处理部对文 档进行复印或者打印的处理。所述收集部从所述处理部处理的所述文档中,对 要注册到根据从所述文档中抽取出的字符串而构成的词汇表中的字符串进行收 集。所述发送部将所述收集部所收集的所述字符串发送给所述信息处理装置。 所述信息处理装置具备:存储部、接收部和注册部。所述存储部对所述词汇表 进行存储。所述接收部对从所述信息处理装置发送来的所述字符串进行接收。 所述注册部将所述接收部接收的所述字符串注册到所述词汇表中。

为了达到上述目的,本发明的一方式所涉及的词汇表管理方法包含如下步 骤:通过获得部,从文档中获得文本数据;通过分析部,对记述所获得的所述 文本数据的语言和构成所述文本数据的字符串的词性进行分析,并基于分析结 果抽取所述字符串;通过用语匹配部,将所述抽取出的字符串与注册了用语的 公共词典进行匹配;通过注册部,在所述抽取出的字符串与所述公共词典的关 键词不一致时,将所述抽取出的字符串注册到所述词汇表中。

〔发明效果〕

如上述那样,根据本发明,能够减少对注册到词汇表的字符串进行收集的 时间和精力,能够对符合词汇表使用目的的用语进行收集。

附图说明

图1表示词汇表管理装置的结构。

图2表示图像形成装置的结构。

图3表示客户端-服务器型的词汇表管理系统的结构。

图4表示词汇表管理装置从收集字符串开始到将字符串注册到本地词汇表 中为止的处理工序。

图5表示字符串到本地词汇表的注册处理的具体内容。

具体实施方式

以下,参照附图,对本发明实施方式进行说明。

[概要]

最开始,对本发明一实施方式所涉及的词汇表管理装置的概要进行说明。 本发明的词汇表管理装置不需要使用者进行字符串的注册,而是对要注册的字 符串进行收集而创建词汇表。对于本发明的词汇表管理装置,以使用者进行普 通操作(例如,文档的复印或者打印等操作)作为前提,普通操作与要注册到 词汇表中的字符串的收集没有关系。

然后,本发明的词汇表管理装置首先进行第一阶段的处理,即在使用者进 行普通操作(例如,文档的复印或者打印等操作)时,从该普通操作对象的文 档中收集(即抽取)要注册到词汇表中的字符串。普通操作是与要注册到词汇 表中的字符串的收集没有关系的操作。

接下来,本发明的词汇表管理装置接着进行第二阶段的处理,即判断是否 将所收集的字符串注册到词汇表中,并将判断为要注册的用语注册到词汇表中。

另外,在是否注册字符串的判断中,也可以利用该普通操作对象的文档是 公司内部文件还是公司外部文件的信息。

还有,也可以将所收集的字符串中字符串的词性是名词或者动词的字符串 注册到词汇表中。

还有,也可以基于下述的条件(A)和(B)来判断是否将抽取出的字符串 注册到词汇表中。(A)所抽取字符串的源文档的语言是否是日语。(B)在该 语言是日语的情况下,抽取出的字符串是否只由西文字母构成且是固有名词。

本发明的词汇表管理装置通过进行上述两个阶段的处理,能够适当地对为 了注册到词汇表中而收集的字符串进行分类,并将词汇表构建为符合使用目的 的词汇表。

还有,也能够减少使用者创建词汇表的时间和精力。

另外,对于收集用语而创建的词汇表,能够通过注册各用语的意思来提高 所创建的词汇表的实用性。

另外,在以下的说明中,将词汇表管理装置所管理的词汇表记载为“本地 词汇表”。还有,例如将互联网等网络上的词汇表或者词典等、且独立于本发 明的词汇表管理装置而管理的词汇表或者词典等记载为“公共词典”。

上述,对本发明一实施方式所涉及的词汇表管理装置的概要进行了说明。

[结构]

接下来,对本发明的词汇表管理装置的结构进行说明。另外,在下述中, 最开始对词汇表管理装置的结构进行说明。然后,对于将词汇表管理装置作为 一个图像形成装置(MFP、MultifunctionPeripheral)来实现的结构进行说明。接 着,对于将词汇表管理装置作为利用网络的客户端-服务器型的系统来实现的结 构进行说明。

(词汇表管理装置的结构)

图1表示词汇表管理装置1的结构。词汇表管理装置1具备:扫描仪2、信 息处理装置3、输出装置9。

扫描仪2用于进行上述的普通操作,即用于在使用者对文档进行复印或者 电子化时对原稿(即文档)进行读取。

输出装置9对文档进行输出(例如,显示输出、打印输出、发送输出)。 该文档是数据,存储在信息处理装置3或输出装置9中。例如,输出装置9是 显示装置(例如显示器)、打印装置(例如打印机)或者网络机器等。网络机 器向网络上的外部机器发送数据。输出装置9用于进行上述的普通操作,即用 于使用者进行文档内容的浏览、文档的复印或者打印、经由网络将文档发送到 其它机器。

信息处理装置3能够使用计算机来实现。信息处理装置3具备:存储部5、 输入部6、控制部7和通信部8。

存储部5存储操作用的数据,并存储本地词汇表5a等。操作用的数据是控 制部7在进行后面叙述的处理时所用的数据。本地词汇表5a是收集了用语的词 汇表。

输入部6受理来自使用者的指示。

控制部7进行概要中所述的两个阶段的处理。该处理的具体内容在后面进 行叙述。控制部7具有:OCR(OpticalCharacterRecognition)处理部7a、获得 部7b、分析部7c、用语匹配部7d和注册部7e。

OCR处理部7a从扫描仪2所读取的原稿的图像数据中识别出文字,生成电 子文本数据。另外,扫描仪2和OCR处理部7a的组合相当于读取部。

获得部7b获得文档的文本数据。文本数据由OCR处理部7a生成,或者由 通信部8接收。

分析部7c对获得部7b获得的文本数据的记述所用语言进行分析,并从分 析了的文本数据中抽取字符串。

用语匹配部7d进行所抽取出的字符串与公共词典的匹配。具体来说,用语 匹配部7d判断所抽取出的字符串是否作为公共词典的关键词而存在。然后,在 抽取出的字符串作为公共词典的关键词而存在的情况下,用语匹配部7d判断为 匹配一致。

注册部7c将字符串和位置信息注册到本地词汇表5a中。该字符串是抽取出 的字符串中分析部7c的分析结果符合条件的字符串,或者是与公共词典的匹配 结果符合条件的字符串。位置信息是表示该字符串在源文档内的位置的信息。

通信部8与信息处理装置3的外部进行信息交换。

另外,在输出装置9是网络机器的情况下,该网络机器也可以兼用作通信 部8。

上述是词汇表管理装置1的结构。

(将词汇表管理装置作为图像形成装置来实现的结构)

接下来,对于将词汇表管理装置作为图像形成装置10来实现的结构进行说 明。图2表示图像形成装置10的结构。

图像形成装置10具备:控制部11、图像读取部12、图像处理部13、图像 存储器14、图像形成部15、操作部18、传真机通信部19和存储部21。控制部 11具备:CPU(CentralProcessingUnit)、RAM(RandomAccessMemory)、 ROM(ReadOnlyMemory)和专用硬件电路等。控制部11负责图像形成装置 10整体的动作控制。

控制部11与图像读取部12、图像处理部13、图像存储器14、图像形成部 15、操作部18、传真机通信部19、网络接口部20、存储部21等连接。控制部 11进行所连接的上述各部(模块)的动作控制以及在其与各模块之间收发信号 或者数据。

控制部11按照来自使用者的任务执行指令,对上述各模块的驱动和处理进 行控制,从而执行各功能(例如扫描仪功能、打印功能、复印机能和传真机收 发功能等)。任务执行指令是使用者通过操作部18或者PC等输入的。PC等是 网络连接的。

还有,控制部11进行在概要的项目中叙述了的处理。

还有,控制部11具有:OCR处理部11a、获得部11b、分析部11c、用语 匹配部11d和注册部11e。

控制部11的各部(OCR处理部11a、获得部11b、分析部11c、用语匹配 部11d和注册部11e)分别相当于上述的控制部7的各部(OCR处理部7a、获 得部7b、分析部7c、用语匹配部7d和注册部7e)。还有,控制部11的上述各 部是通过从ROM等存储中加载到RAM的程序由CPU执行而实现功能的功能 模块。

图像读取部12从原稿中读取图像。图像读取部12相当于上述的词汇表管 理装置1的扫描仪2。

图像处理部13根据需要,对图像读取部12所读取的图像的图像数据进行 图像处理。例如,图像处理部13为了提高图像读取部12所读取的图像在图像 形成后的品质,进行图像处理(例如阴影校正)。

图像存储器14对数据进行临时存储。数据是图像读取部12所读取的原稿 的图像数据,或者是成为图像形成部15中的打印对象的数据。

图像形成部15进行图像读取部12所读取的图像数据等的图像形成(例如 打印输出)。图像形成部15相当于上述的词汇表管理装置1的输出装置9。

操作部18具备触控面板部和操作按键部。

触控面板部和操作按键部受理来自使用者的指示,该指示与图像形成装置 10可执行的各种动作和处理有关。触控面板部具备显示部18a。例如,显示部 18a是设置有触控面板的LCD(LiquidCrystalDisplay)。操作部18相当于上述 的词汇表管理装置1的输入部6。

传真机通信部19具备:未图示的编码/解码部、调制解调部和NCU(Network ControlUnit)。传真机通信部19进行使用公共电话网络的传真收发。

网络接口部20具备通信模块(例如网络适配器)。例如,网络接口部20 与LAN连接。例如,网络接口部20通过LAN,与局域内的装置(服务器、PC 等外部机器)进行各种数据的收发。网络接口部20相当于上述的词汇表管理装 置1的通信部8。

存储部21对原稿图像和本地词汇表21a等进行存储。原稿图像是图像读取 部12所读取的图像的数据。另外,本地词汇表21a相当于上述的词汇表管理装 置1的本地词汇表5a。存储部21是大容量的存储装置(例如HDD(HardDisk Drive))。

上述,对于将词汇表管理装置作为图像形成装置10来实现的结构进行了说 明。

(将词汇表管理装置作为客户端-服务器型的系统来实现的结构)

接下来,对于将词汇表管理装置作为以信息处理装置50为中心的客户端- 服务器型的词汇表管理系统100来实现的结构进行说明。图3表示客户端-服务 器型的词汇表管理系统100的结构。

词汇表管理系统100具备图像形成装置40和信息处理装置50。词汇表管理 系统100是通过图像形成装置40和信息处理装置50经由网络进行通信而实现 的。另外,词汇表管理系统100也可以使用外部的公共词典服务器60进行处理。 还有,使用者利用的PC(PersonalComputer,未图示)也可以连接在网络中。

图像形成装置40是在普通的图像形成装置中附加了功能部41的装置,功 能部41用于收集要注册到本地词汇表中的字符串。例如,普通的图像形成装置 具有对文档进行复印或者打印的处理部42。附加的功能部41含有收集部41a和 发送部41b。收集部41a对要注册到本地词汇表中的字符串进行收集。具体来说, 收集部41a在使用者使用图像形成装置40进行与字符串的收集没有关系的普通 操作(例如文档的复印或者打印)时,从普通操作对象的文档中收集(即抽取) 字符串。换句话说,收集部41a在处理部42进行处理后,从处理部42处理了 的文档中对要注册到词汇表中的字符串进行收集。收集部41a相当于词汇表管 理装置1的OCR处理部11a、获得部11b、分析部11c和用语匹配部11d。发送 部41b将收集部41a收集的字符串发送到信息处理装置50。

信息处理装置50将从图像形成装置40送来的字符串注册到本地词汇表中。 信息处理装置50具备:存储部51、接收部52和注册部53。存储部51可存储 本地词汇表。接收部52接收从图像形成装置40送来的字符串。注册部53将接 收部52接收的字符串注册到本地词汇表中。本地词汇表存储在存储部51中。 存储部51和注册部53分别相当于词汇表管理装置1的存储部21和注册部11e。

公共词典服务器60具备任意数量的公共词典。公共词典在互联网等网络上 有提供。还有,公共词典中收录有普通的用语。

信息处理装置50在将字符串注册到本地词汇表中之前,也可以检查该字符 串是否在公共词典中。具体来说,信息处理装置50检查该字符串是否已在公共 词典服务器60上。接下来,信息处理装置50在该字符串已在公共词典服务器 60上的情况下,不将该字符串注册到本地词汇表中。还有,信息处理装置50在 该字符串不在公共词典服务器60上的情况下,将该字符串注册到本地词汇表中。 其结果,防止公共词典与本地词汇表之间的用语注册的重复。还有,抑制本地 词汇表的容量大小。还有,本地词汇表成为符合其利用目的的词汇表。

还有,信息处理装置50为了检查即是公司内部文件又是日语的文档所含的 字符串中以西文字母构成的字符串是否是固有名词,也可以利用公共词典。

例如,对于在面向公司内部的日语文档内含有字符串“Jupiter”的情况,是 由于该字符串高概率地用作项目的名称或者新产品的代号。项目是在本公司进 行的项目,新产品是本公司开发中的新产品。

另外,词汇表管理装置1、图像形成装置10和信息处理装置50也可以在自 身装置内部具备公共词典。

上述,对于将词汇表管理装置作为以图像形成装置为中心的客户端-服务器 型的词汇表管理系统100来实现的结构进行了说明。另外,公共词典服务器60 与词汇表管理系统100组合使用,但不限定于这样的组合。例如,公共词典服 务器60也可以与词汇表管理装置1或者图像形成装置10组合使用。

[处理的流程]

接下来,对于词汇表管理装置从收集字符串开始到将字符串注册到本地词 汇表21a中为止的处理流程进行说明。图4表示词汇表管理装置从收集字符串 开始到将字符串注册到本地词汇表21a中为止的处理工序。

另外,在以下的说明中,如图2所示,词汇表管理装置作为一个图像形成 装置10来进行实施。而且,词汇表管理装置与网络上的公共词典服务器60协 作。

首先,使用者使用图像形成装置10,进行任意文档的复印或者打印(步骤 S1)。

接下来,图像形成装置10的操作部18受理来自使用者的公司内外区分(步 骤S2)。公司内外区分是表示进行复印或者打印的文档是公司外部文档还是公 司内部文件的区分。

接下来,获得部11b基于在步骤S2中所输入的公司内外区分,判断步骤S1 中进行复印或者打印的文档是否是公司内部文件(步骤S3)。

在判断为步骤S1中进行复印或者打印的文档是公司内部文件的情况下(步 骤S3的Y),获得部11b从进行复印或者打印的文档中获得文本数据(步骤S4)。 另外,步骤S4中,在文档是由图像读取部12读取的情况下,由OCR处理部11a 进行从图像数据到文本数据的变换。

接下来,分析部11c对获得部11b获得的文本数据进行分析。具体来说, 分析部11c对记述文本数据的语言是哪种语言(例如是日语还是英语,或者是 其它语言)进行分析(步骤S5)。

对于语言的分析,可以使用普通所知的技术,也可以对构成文本数据的大 部分的文字种类进行分析。在对构成文本数据的大部分的文字种类进行分析的 情况下,例如是日语的话,作为文字种类的平假名或者片假名占文本数据的大 部分。

还有,记述文本数据的语言的判断也可以由使用者进行。

接下来,分析部11c基于该分析结果,判断记述文本数据的语言是否是日 语(步骤S6)。

在文本数据是以日语记述的情况下(步骤S6的Y),分析部11c接下来对 于通过词素分析等从文本数据中抽取的字符串的词性进行分析,对词性是名词 或者动词的字符串进行抽取(步骤S7)。

还有,分析部11c为了可以将抽取出的字符串的出处提示给使用者,而获 得抽取出的字符串的位置信息并存储到存储部21中(步骤S8)。位置信息是表 示如下内容的信息:在步骤S5中抽取出的字符串是从源文档的哪个位置抽取出 的。位置信息能够用于使用者在利用本地词汇表21a的用语时获知其出处。

接下来,分析部11c判断抽取出的字符串是否是只由西文字母构成的固有 名词(步骤S9)。

在抽取出的字符串是只由西文字母构成且是固有名词以外的字符串的情况 下(步骤S9的N),用语匹配部11d将抽取出的字符串与公共词典服务器60 上的公共词典进行匹配。

接下来,用语匹配部11d判断匹配的结果是否一致(步骤S11)。另外,匹 配的结果为一致是指抽取的字符串作为公共词典的关键词而存在。

在步骤S9中,抽取出的字符串是只由西文字母构成的固有名词的情况下(步 骤S9的Y),以及在步骤S11中,匹配的结果是不一致的情况下(步骤S11的 N),注册部11e将抽取出的字符串与其位置信息一起注册到本地词汇表21a中 (步骤S12)。另外,在后面对注册处理的具体内容进行叙述。位置信息存储在 存储部21中。

上述对词汇表管理装置从收集字符串开始到将字符串注册到本地词汇表 21a中为止的处理流程进行了说明。另外,上述处理中,从步骤S8开始到步骤 S12为止是对步骤S7中抽取出的每个字符串逐个进行的。

[到本地词汇表的注册处理的具体内容]

接下来,对字符串到本地词汇表21a的注册处理的具体内容进行说明。图5 表示字符串到本地词汇表21a的注册处理的具体内容。

首先,注册部11e判断本地词汇表21a是否存在(步骤S20)。

在本地词汇表21a还不存在的情况下(步骤S20的N),注册部11e创建本 地词汇表21a的框架(步骤S21)。

在本地词汇表21a已存在的情况下(步骤S20的Y),接下来,注册部11e 判断将要注册到本地词汇表21a中的字符串是否已经在本地词汇表21a中存在 (步骤S22)。

在将要注册的字符串在本地词汇表21a中不存在的情况下(步骤S22的N), 注册部11e将抽取出的字符串及其位置信息一起注册到本地词汇表21a中(步骤 S23)。

上述,对字符串到本地词汇表21a的注册处理的具体内容进行了说明。

[补充事项]

另外,本技术不限定于上述的实施方式,在不脱离本技术的要旨的范围内 可以增加各种变更是理所当然的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号