首页> 中国专利> 一种基于机器学习的中文商业文本预处理方法

一种基于机器学习的中文商业文本预处理方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于机器学习的中文商业文本预处理方法，对输入的中文商业文本采用以下步骤进行处理：（1）对中文商业文本进行分句和分词；（2）利用决策树对分好的词语进行词性标注；（3）基于贝叶斯分类器利用条件概率进行词义消歧；（4）利用One‑Hot编码与Skip‑Gram模型结合的混合模型表示词向量；（5）利用TF‑IDF调整词语权重，确定多义词在当前语境下对应的词义；（6）输出基于机器学习预处理后的中文商业文本。本发明能够有效的解决中文商业问答系统由于文本预处理不足导致系统答非所问，应答情景有限的问题，提高计算机理解文本的准确性，使得机器翻译、智能问答等延伸工作具有可实施性。

著录项

公开/公告号CN110457685A

专利类型发明专利
公开/公告日2019-11-15

原文格式PDF
申请/专利权人南京邮电大学;
展开▼

申请/专利号CN201910660219.7
发明设计人桂冠;张婕;杨洁;
展开▼

申请日2019-07-22
分类号
代理机构南京纵横知识产权代理有限公司;
代理人董建林
地址 210012江苏省南京市雨花台区西春路1号
入库时间 2024-02-19 15:30:30

法律信息

法律状态公告日

法律状态信息

法律状态
2019-12-10

实质审查的生效 IPC(主分类):G06F17/27 申请日:20190722

实质审查的生效
2019-11-15

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于机器学习的中文商业文本预处理方法 [P] . 中国专利： CN110457685A . 2019-11-15
2. 一种基于机器学习的中文文本数据分类方法 [P] . 中国专利： CN112732922A . 2021-04-30
3. Text entity extraction method for extracting text from target text based on combination probabilities of segmentation combination of text entities in the target text, apparatus, and device, and storage medium [P] . US11222178B2 . 2022-01-11

机译：基于目标文本，装置和设备中文本实体的分段组合的组合概率从目标文本提取文本的文本实体提取方法，以及存储介质
4. (54) Title: A CONTENT BASED APPROACH TO EXTENDING THE FORM AND FUNCTION OF A BUSINESS INTELLI¬GENCE SYSTEM (57) Abstract: A business intelligence (BI) system includes the ability to extend its functionality outside of the project life cycle by means of specific content. Complex multidimensional queries are interpreted as trees of atomic sub-expressions that are com¬bined in a parse-tree-like structure to form the overall query. Each sub tree is valid in isolation when provided with the proper context. Any sub tree can be an expression template, stored as application content, which at generation time uses simple text sub¬stitution with instance specific parameters to produce multidimensional expression syntax. The system includes a sophisticated type system and semantic layer that hides the user from the complexities inherent in working with OLAP databases. A business in¬telligence expert can provide type and semantic cues for each expression template, held as content. [P] . IN2012CN02100A . 2012-11-02

机译：（54）标题：一种扩展商务智能系统的形式和功能的基于内容的方法（57）摘要：商务智能（BI）系统具有通过以下方式将其功能扩展到项目生命周期之外的能力：具体内容。复杂的多维查询被解释为原子子表达式的树，这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板，该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层，使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。
5. Method for performing semantic search in e.g. political ontology, based on text segment in semantic web, involves designing pattern in document, and performing semantic search in ontology by application based on designed pattern [P] . 瑞士专利： CH704148A2 . 2012-05-31

机译：在例如网页中执行语义搜索的方法基于语义网中文本段的政治本体，包括在文档中设计模式，并根据基于所设计的模式的应用程序在本体中进行语义搜索