首页> 中国专利> 评论点的展现方法和装置

评论点的展现方法和装置

摘要

本发明提出一种评论点的展现方法和装置,该评论点的展现方法包括:从评论数据中解析出评论观点句,并确定评论观点句的情感倾向和评论维度;计算上述评论观点句之间的评论相似性;根据评论相似性,对评论观点进行聚合,得到评论观点相似句簇;从评论观点相似句簇中提取中心句,从上述中心句中筛选出词语表达丰富且具有代表性观点的中心句,作为句子级别的评论点进行展现。本发明以句子级别的评论Tag来体现单个评论观点,以评论Tag生成的评论摘要来体现总体上的评论观点,展现形式更为灵活丰富,更为符合用户阅读的预期,具备显著的需求满足度,并且具备良好的通用性,能够以很低的人工成本扩展到其他类别的评论数据上,增加数据产出的效率。

著录项

  • 公开/公告号CN104462363A

    专利类型发明专利

  • 公开/公告日2015-03-25

    原文格式PDF

  • 申请/专利权人 百度在线网络技术(北京)有限公司;

    申请/专利号CN201410743444.4

  • 发明设计人 魏安军;李大任;卿权;余艳;

    申请日2014-12-08

  • 分类号G06F17/30(20060101);

  • 代理机构北京清亦华知识产权代理事务所(普通合伙);

  • 代理人宋合成

  • 地址 100085 北京市海淀区上地十街10号百度大厦三层

  • 入库时间 2023-12-18 08:05:40

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-10-23

    授权

    授权

  • 2015-04-22

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141208

    实质审查的生效

  • 2015-03-25

    公开

    公开

说明书

技术领域

本发明涉及互联网技术领域,尤其涉及一种评论点的展现方法和装置。

背景技术

在这样一个信息爆炸的年代,一个商品的评论有时会有成百上千条。这给用户的消费 决策带来了很大的困难。购物搜索的商品评论聚合项目的目标就是从商品在商对客 (Business to Customer;以下简称:B2C)电商网站上的评论中抽取评论标签(Tag),并 将语义相似的评论Tag进行合并,从而展现给用户,以达到节省用户阅读大量评论的时间 和精力的目的。

现有技术中与评论Tag抽取比较相近的研究叫评论点抽取(Aspect Extraction)。所谓 评论点,就是评论句评价的目标(Target)。例如:“小米2的电池续航时间太短”,这句话 的评论点就是“电池续航时间”,而“太短”是评价词或情感词。现有的评论点的抽取方法 有四种:根据出现频次高的名词或名词短语抽取、根据观点和评价对象之间的关系抽取、 使用有监督的机器学习方法进行抽取、使用话题模型(Topic Model)进行抽取。

但是,现有技术对于评论观点的抽取都局限在词语或者短语级别,在直观上给用户的 感觉很机械,不灵活,提供的信息量也不是很丰富。而且,多个词语或者短语评论Tag罗 列的方式在阅读上不连贯,容易出现观点语义上的重复,例如:“外观漂亮”和“样子不错”, 会带来糟糕的用户体验。

发明内容

本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明的第一个目的在于提出一种评论点的展现方法。通过该方法,以句子级 别的评论Tag来体现单个评论观点,以评论Tag生成的评论摘要来体现总体上的评论观点, 展现形式更为灵活丰富,更为符合用户阅读的预期,具备显著的需求满足度,并且具备良 好的通用性,能够以很低的人工成本扩展到其他类别的评论数据上,增加数据产出的效率。

本发明的第二个目的在于提出一种评论点的展现装置。

为了实现上述实施例,本发明第一方面实施例的评论点的展现方法,包括:从评论数 据中解析出评论观点句,并确定所述评论观点句的情感倾向和评论维度;根据所述情感倾 向和所述评论维度通过评论观点相似性模型计算所述评论观点句之间的评论相似性;根据 所述评论观点句之间的评论相似性,对评论观点进行聚合,得到评论观点相似句簇;从所 述评论观点相似句簇中提取表达丰富且能够代表句簇观点的中心句,从所述中心句中筛选 出词语表达丰富且具有代表性观点的中心句,作为句子级别的评论点进行展现。

本发明实施例的评论点的展现方法,从评论数据中解析出评论观点句,确定上述评论 观点句的情感倾向和评论维度,然后根据情感倾向和评论维度通过评论观点相似性模型计 算评论观点句之间的评论相似性,根据上述评论观点句之间的评论相似性,对评论观点进 行聚合,得到评论观点相似句簇;从上述评论观点相似句簇中提取表达丰富且能够代表句 簇观点的中心句,最后再从上述中心句中筛选出词语表达丰富且具有代表性观点的中心句, 作为句子级别的评论点进行展现,从而可以实现以句子级别的评论Tag来体现单个评论观 点,以评论Tag生成的评论摘要来体现总体上的评论观点,展现形式更为灵活丰富,更为 符合用户阅读的预期,具备显著的需求满足度,并且具备良好的通用性,能够以很低的人 工成本扩展到其他类别的评论数据上,增加数据产出的效率。

为了实现上述实施例,本发明第二方面实施例的评论点的展现装置,包括:解析模块, 用于从评论数据中解析出评论观点句;确定模块,用于确定所述评论观点句的情感倾向和 评论维度;计算模块,用于根据所述情感倾向和所述评论维度通过评论观点相似性模型计 算所述评论观点句之间的评论相似性;聚合模块,用于根据所述计算模块计算获得的所述 评论观点句之间的评论相似性,对评论观点进行聚合,得到评论观点相似句簇;提取模块, 用于从所述聚合模块获得的评论观点相似句簇中提取表达丰富且能够代表句簇观点的中心 句;筛选模块,用于从所述提取模块提取的中心句中筛选出词语表达丰富且具有代表性观 点的中心句,作为句子级别的评论点进行展现。

本发明实施例的评论点的展现装置,解析模块从评论数据中解析出评论观点句,确定 模块确定上述评论观点句的情感倾向和评论维度,然后计算模块根据情感倾向和评论维度 通过评论观点相似性模型计算评论观点句之间的评论相似性,聚合模块根据上述评论观点 句之间的评论相似性,对评论观点进行聚合,得到评论观点相似句簇;提取模块从上述评 论观点相似句簇中提取表达丰富且能够代表句簇观点的中心句,最后筛选模块再从上述中 心句中筛选出词语表达丰富且具有代表性观点的中心句,作为句子级别的评论点进行展现, 从而可以实现以句子级别的评论Tag来体现单个评论观点,以评论Tag生成的评论摘要来 体现总体上的评论观点,展现形式更为灵活丰富,更为符合用户阅读的预期,具备显著的 需求满足度,并且具备良好的通用性,能够以很低的人工成本扩展到其他类别的评论数据 上,增加数据产出的效率。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明 显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显 和容易理解,其中:

图1为本发明评论点的展现方法一个实施例的流程图;

图2为本发明评论点的展现方法一个应用场景的示意图;

图3为本发明评论点的展现方法另一个应用场景的示意图;

图4为本发明评论点的展现装置一个实施例的结构示意图;

图5为本发明评论点的展现装置另一个实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同 或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描 述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发 明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1为本发明评论点的展现方法一个实施例的流程图,如图1所示,该评论点的展现 方法可以包括:

步骤101,从评论数据中解析出评论观点句,并确定上述评论观点句的情感倾向和评 论维度。

本实施例中,评论句是指一段短中长度的文本,可以是B2C网站上的评论,也可以是 知道的问题和回答,而评论观点句是从上述文本中分句得到的。一般来说,评论观点句以 空格、中英文逗号或者中英文句号分割的居多,然而针对评论观点句,主要需要考虑句子 长度、句子有效的表达内容(实意中文字符的比例)和/或特殊分割符号附近文本的处理, 例如:英文句号“.”在作为小数点的时候便不能作为分句符号。

例如,输入文本为“外观时尚前卫,老婆十分满意外观,7.8万的车能做到这个样子 满足了”,解析出的评论观点句包括“外观时尚前卫”,“老婆十分满意外观”,以及“7.8 万的车能做到这个样子满足了”。

其中,确定上述评论观点句的评论维度可以为确定上述评论观点句评价对象所属的维 度类别,例如:汽车评论中,“方向盘指向非常精确”的评论维度为“操控”。

步骤102,根据上述情感倾向和上述评论维度通过评论观点相似性模型计算上述评论 观点句之间的评论相似性。

进一步地,根据上述情感倾向和上述评论维度通过评论观点相似性模型计算上述评论 观点句之间的评论相似性之前,还可以基于评论观点底层资源,通过评论观点主干分析和 相似度计算,提取上述评论观点句之间的语义相似类特征、统计相似类特征和情感相似类 特征作为评论观点的相似性特征;然后利用多分档的人工标注数据在评论观点的相似性特 征空间训练出机器学习模型,作为评论观点相似性模型。

其中,评论观点底层资源挖掘包含了评论短语Tag词典(属性词+评价词的方式,例如: “性价比_不错”或者“外观_漂亮”)、评论维度Topic Model(结合全局文档和局部句子 的Topic Model)、不同评论维度下评论的共现词词典和基于评论数据训练得到的词向量模 型。

对于汽车评论中的“空间”评论维度,若“个头”和“空间”在一条评论中共现了, 则加入到“空间”维度的共现词典中。词向量即为用多维向量来表示一个字,例如“淘宝 ={-0.218361,-0.161067,0.393835,-0.127615,0.15469,0.0753922…}”

本实施例中,上述评论观点主干分析可以为:从上述评论观点句中分析出能够表现用 户主观观点的部分,作为评论观点主干。

例如,对于评论观点句“新速腾的皮质座椅设计的不错”,其表达的观点为“新速腾皮 质座椅不错”,这里的“新速腾皮质座椅不错”即为评论观点主干。

步骤103,根据上述评论观点句之间的评论相似性,对评论观点进行聚合,得到评论 观点相似句簇。

举例来说,根据评论观点句之间的评论相似性,在汽车迈腾的评论中,能够将“低速 时很轻,方向慢速很轻,低速迈腾,低速轻盈,方向盘低速时很轻盈,方向低速轻盈,低 速方向轻盈,方向很轻”聚合到一块。

步骤104,从上述评论观点相似句簇中提取表达丰富且能够代表句簇观点的中心句, 从上述中心句中筛选出词语表达丰富且具有代表性观点的中心句,作为句子级别的评论点 进行展现。

例如,对于句簇“四道杠的前脸很霸气,车头霸气,前面很霸气,霸气的前脸,前脸 看起霸气,霸气的前脸和干净利落的车尾,前脸很霸气”中,能够提取“前脸很霸气”作 为中心句。

然后,再从提取好的中心句中筛选出词语表达丰富且具有代表性观点的中心句,作为 句子级别的评论点进行展现。加以不同情感倾向的区分,能够让用户更好的了解某一主题 下大家所关注的典型好评观点和差评观点。

例如,在汽车评论中,关于雅阁车型的中心句“外观很稳重霸气”和“最满意就是外 观了”,后一句给用户的感觉很宽泛,没有提供具体的描述,而前一句则说除了特点。所以 说,通过筛选能够增强句子级别的评论点展现的形式。

本实施例中,从上述评论观点相似句簇中提取表达丰富且能够代表句簇观点的中心句 之后,还可以从上述中心句中选择表达丰富和观点意义表达不矛盾的句子,根据选择的句 子的情感倾向和评论维度,利用自然语言生成技术拼接成评论摘要。

例如,对于挑选出的两个评论维度下的中心句“杭州的人民真幸福,推荐租自行车骑 行,就是太多游客了”和“湖水清凉美丽,水面垃圾偏多,夏天的荷花很漂亮”,拼接后分 别得到“杭州的人民真幸福,推荐租自行车骑行,但就是太多游客了”和“湖水清凉美丽, 夏天的荷花很漂亮,但是水面垃圾偏多”,最后直接连接得到完整的评论摘要。

上述实施例中,从评论数据中解析出评论观点句,确定上述评论观点句的情感倾向和 评论维度,然后根据情感倾向和评论维度通过评论观点相似性模型计算评论观点句之间的 评论相似性,根据上述评论观点句之间的评论相似性,对评论观点进行聚合,得到评论观 点相似句簇;从上述评论观点相似句簇中提取表达丰富且能够代表句簇观点的中心句,最 后再从上述中心句中筛选出词语表达丰富且具有代表性观点的中心句,作为句子级别的评 论点进行展现,从而可以实现以句子级别的评论Tag来体现单个评论观点,以评论Tag生 成的评论摘要来体现总体上的评论观点,展现形式更为灵活丰富,更为符合用户阅读的预 期,具备显著的需求满足度,并且具备良好的通用性,能够以很低的人工成本扩展到其他 类别的评论数据上,增加数据产出的效率。

本发明提供的评论点的展现方法可以应用在多种场景,例如:百度网页搜索结果页中 的特型卡片,百度旅游的目的地指南页和行程展现页等等,本发明对上述评论点的展现方 法的应用场景不作限定。

图2为本发明评论点的展现方法一个应用场景的示意图,图2为百度网页搜索结果页 特型卡片的一个示例,如图2所示,该特型卡片为汽车口碑详情卡片,其中标签“全部评 论”下的优缺点句子为利用本发明提供的方法从汽车之家网站的评论中抽取得到的。且卡 片具有不同的评论维度,方便用户查阅自己感兴趣维度下的优缺点。这种展现形式能够满 足用户对于评论口碑的需求,明显降低此类口碑查询的换查询词的比例,提升了百度网页 搜索的用户体验。

图3为本发明评论点的展现方法另一个应用场景的示意图,图3为百度旅游的目的地 指南页的一个示例,图3中的“大家印象”便是利用本发明提供的方法从百度旅游以及其 它旅游垂直站点的评论数据中抽取出来的。该种观点展现形式非常贴近日常表达,可以概 括性地展现出用户一系列典型的观点,能够让用户在很短的时间内了解一个景点的特色。

图4为本发明评论点的展现装置一个实施例的结构示意图,本实施例中的评论点的展 现装置可以实现本发明图1所示实施例的流程,如图4所示,该评论点的展现装置可以包 括:解析模块41、确定模块42、计算模块43、聚合模块44、提取模块45和筛选模块46;

其中,解析模块41,用于从评论数据中解析出评论观点句。本实施例中,评论句是指 一段短中长度的文本,可以是B2C网站上的评论,也可以是知道的问题和回答,而评论观 点句是从上述文本中分句得到的。一般来说,评论观点句以空格、中英文逗号或者中英文 句号分割的居多,然而针对评论观点句,主要需要考虑句子长度、句子有效的表达内容(实 意中文字符的比例)和/或特殊分割符号附近文本的处理,例如:英文句号“.”在作为小 数点的时候便不能作为分句符号。

例如,输入文本为“外观时尚前卫,老婆十分满意外观,7.8万的车能做到这个样子 满足了”,解析模块41解析出的评论观点句包括“外观时尚前卫”,“老婆十分满意外观”, 以及“7.8万的车能做到这个样子满足了”。

确定模块42,用于确定上述评论观点句的情感倾向和评论维度;其中,确定上述评论 观点句的评论维度可以为确定模块42确定上述评论观点句评价对象所属的维度类别,例 如:汽车评论中,“方向盘指向非常精确”的评论维度为“操控”。

计算模块43,用于根据上述情感倾向和上述评论维度通过评论观点相似性模型计算上 述评论观点句之间的评论相似性。

聚合模块44,用于根据计算模块43计算获得的上述评论观点句之间的评论相似性, 对评论观点进行聚合,得到评论观点相似句簇;例如,根据评论观点句之间的评论相似性, 在汽车迈腾的评论中,能够将“低速时很轻,方向慢速很轻,低速迈腾,低速轻盈,方向 盘低速时很轻盈,方向低速轻盈,低速方向轻盈,方向很轻”聚合到一块。

提取模块45,用于从聚合模块44获得的评论观点相似句簇中提取表达丰富且能够代 表句簇观点的中心句;例如,对于句簇“四道杠的前脸很霸气,车头霸气,前面很霸气, 霸气的前脸,前脸看起霸气,霸气的前脸和干净利落的车尾,前脸很霸气”中,提取模块 45能够提取“前脸很霸气”作为中心句。

筛选模块46,用于从提取模块45提取的中心句中筛选出词语表达丰富且具有代表性 观点的中心句,作为句子级别的评论点进行展现。具体地,筛选模块46从提取好的中心句 中筛选出词语表达丰富且具有代表性观点的中心句,作为句子级别的评论点进行展现。加 以不同情感倾向的区分,能够让用户更好的了解某一主题下大家所关注的典型好评观点和 差评观点。

例如,在汽车评论中,关于雅阁车型的中心句“外观很稳重霸气”和“最满意就是外 观了”,后一句给用户的感觉很宽泛,没有提供具体的描述,而前一句则说除了特点。所以 说,通过筛选模块46进行筛选能够增强句子级别的评论点展现的形式。

上述评论点的展现装置中,解析模块41从评论数据中解析出评论观点句,确定模块 42确定上述评论观点句的情感倾向和评论维度,然后计算模块43根据情感倾向和评论维 度通过评论观点相似性模型计算评论观点句之间的评论相似性,聚合模块44根据上述评论 观点句之间的评论相似性,对评论观点进行聚合,得到评论观点相似句簇;提取模块45从 上述评论观点相似句簇中提取表达丰富且能够代表句簇观点的中心句,最后筛选模块46再 从上述中心句中筛选出词语表达丰富且具有代表性观点的中心句,作为句子级别的评论点 进行展现,从而可以实现以句子级别的评论Tag来体现单个评论观点,以评论Tag生成的 评论摘要来体现总体上的评论观点,展现形式更为灵活丰富,更为符合用户阅读的预期, 具备显著的需求满足度,并且具备良好的通用性,能够以很低的人工成本扩展到其他类别 的评论数据上,增加数据产出的效率。

图5为本发明评论点的展现装置另一个实施例的结构示意图,与图4所示的评论点的 展现装置相比,不同之处在于,上述评论点的展现装置还可以包括:选择模块47和生成模 块48;

选择模块47,用于在提取模块45从上述评论观点相似句簇中提取表达丰富且能够代 表句簇观点的中心句之后,从上述中心句中选择表达丰富和观点意义表达不矛盾的句子;

生成模块48,用于根据选择模块47选择的句子的情感倾向和评论维度,利用自然语 言生成技术拼接成评论摘要。

例如,对于挑选出的两个评论维度下的中心句“杭州的人民真幸福,推荐租自行车骑 行,就是太多游客了”和“湖水清凉美丽,水面垃圾偏多,夏天的荷花很漂亮”,拼接后分 别得到“杭州的人民真幸福,推荐租自行车骑行,但就是太多游客了”和“湖水清凉美丽, 夏天的荷花很漂亮,但是水面垃圾偏多”,最后直接连接得到完整的评论摘要。

进一步地,上述评论点的展现装置还可以包括:训练模块49;

提取模块45,还用于在计算模块43计算上述评论观点句之间的评论相似性之前,基 于评论观点底层资源,通过评论观点主干分析和相似度计算,提取评论观点句之间的语义 相似类特征、统计相似类特征和情感相似类特征作为评论观点的相似性特征;

训练模块49,用于利用多分档的人工标注数据在评论观点的相似性特征空间训练出机 器学习模型,作为评论观点相似性模型。

其中,评论观点底层资源挖掘包含了评论短语Tag词典(属性词+评价词的方式,例如: “性价比_不错”或者“外观_漂亮”)、评论维度Topic Model(结合全局文档和局部句子 的Topic Model)、不同评论维度下评论的共现词词典和基于评论数据训练得到的词向量模 型。

对于汽车评论中的“空间”评论维度,若“个头”和“空间”在一条评论中共现了, 则加入到“空间”维度的共现词典中。词向量即为用多维向量来表示一个字,例如“淘宝 ={-0.218361,-0.161067,0.393835,-0.127615,0.15469,0.0753922…}”

本实施例中,上述评论观点主干分析可以为:从上述评论观点句中分析出能够表现用 户主观观点的部分,作为评论观点主干。

例如,对于评论观点句“新速腾的皮质座椅设计的不错”,其表达的观点为“新速腾皮 质座椅不错”,这里的“新速腾皮质座椅不错”即为评论观点主干。

上述评论点的展现装置可以实现以句子级别的评论Tag来体现单个评论观点,以评论 Tag生成的评论摘要来体现总体上的评论观点,展现形式更为灵活丰富,更为符合用户阅 读的预期,具备显著的需求满足度,并且具备良好的通用性,能够以很低的人工成本扩展 到其他类别的评论数据上,增加数据产出的效率。

需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而 不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个” 的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个 或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分, 并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序, 包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的 实施例所属技术领域的技术人员所理解。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实 施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或 固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下 列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路 的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列 (Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field Programmable  Gate Array;以下简称:FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可 以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中, 该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个 模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可 以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软 件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取 存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、 或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点 包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一 定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何 的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的, 不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例 进行变化、修改、替换和变型。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号