分词
分词的相关文献在1977年到2023年内共计1706篇,主要集中在自动化技术、计算机技术、常用外国语、信息与知识传播
等领域,其中期刊论文815篇、会议论文16篇、专利文献875篇;相关期刊454种,包括电脑编程技巧与维护、电脑知识与技术、计算机工程等;
相关会议15种,包括第五届全国青年计算语言学研讨会(YWCL 2010)、第六届中国信息和通信安全学术会议(CCICS'2009)、第三届学术计算语言学研讨会等;分词的相关文献由3164位作者贡献,包括何径舟、肖求根、詹金波等。
分词
-研究学者
- 何径舟
- 肖求根
- 詹金波
- 郑利群
- 唐华阳
- 岳永鹏
- 余正涛
- 李秀林
- 陈家骏
- 付志宏
- 姜明
- 张旻
- 张民
- 戴新宇
- 李斌
- 李正华
- 邵玉斌
- 吴健
- 周古月
- 李思
- 李林琳
- 白洁
- 肖朔
- 邓卓彬
- 龙华
- 刘林峰
- 司罗
- 吴朝晖
- 张斌
- 徐光伟
- 李翔
- 汤景凡
- 王峰
- 王斌
- 不公告发明人
- 严柯
- 于洪志
- 亓超
- 任永超
- 侯兴林
- 刘哲
- 刘志杰
- 刘晓葳
- 刘汇丹
- 刘迎春
- 包祖贻
- 史亮
- 吕强
- 吴志祥
- 孙健
-
-
张黎娜;
张月蓉;
童敏
-
-
摘要:
通过采集成人学习者在线聊天文本数据,利用python中的jieba分词对在线聊天记录文本进行中文分词,得到分词结果、生成词频表,实现高频词可视化;采用朴素贝叶斯分类器进行文本情感倾向分析,并生成正面、负面、中立三个情感文本文档;以LDA主题模型对情感文本进行主题聚类,得到的正面、负面、中立的主题情感词。情感词分析结果显示,聊天文本多为正常积极的情感交流。针对负面情感集中的问题原因,分别从平台操作、系统使用等方面提出了整改建议。
-
-
马子睿
-
-
摘要:
随着智慧旅游的不断发展,以客户体验作为游客出行的重要标准,针对游客发表的旅游景点评论文本,研究了基于情感词典的旅游推荐算法,对景点评论文本进行预处理、文本分词、词云展示,对积极评论和消极评论进行分类后计算分值,并对情感分值求和,将景点分值较高的评论推荐给客户,使得游客精准掌握旅游产品信息。
-
-
唐杰;
刘铭;
陈镱文
-
-
摘要:
相比较现代汉语和传世文献数据库而言,出土文献数据库中的集外字占比较大。因此在利用数字人文手段对出土文献文本处理时,集外字在数据库中的存在形式及参与方式将直接影响信息处理。参考藏文、甲骨文、西夏文的数字化文本的处理方式,提出一种适应于出土文献集外字在文本信息处理中的程序化方法。该方法不仅提高了出土文献数据库中的数据完整性,也可使得以往不能被用于文本信息处理的集外字参与至自然语言信息处理技术中。利用目前主流的分词工具jieba进行试验,结果显示该方法在出土文献的文本信息处理中是有效的。
-
-
-
段建勇;
李杰东;
王昊
-
-
摘要:
中文文本检错是一项重要任务,在众多应用场景中都需要对各种场景转化而来的文本进行检错以便后续模型的运用。采用人工方式进行文本检错费时费力、效率低。研究者提出了自动检错的方法,但目前的研究多集中在以语义为基础进行检错,缺少对外部知识的引用。本文针对现有检错方法的不足,结合中文文本语句的特点,将输入的中文字符结合其拆字知识,同时将中文的分词结果结合其更小粒度的义原外部知识。
-
-
马超燕
-
-
摘要:
在“互联网+”和“双创”(即创新创业)形势下,电子文献馆也亟需从现在单一的文献服务向知识服务转型。文章主要研究探讨基于python的文本挖掘和分析技术,依托广西科技文献共享与服务平台采用各种算法分析用户特征数据,研究解决电子文献服务过程中用户的交互和个性化问题,引导和促进科研人员之间的知识交流及对前沿科学的探索。
-
-
刘双巧;
李宇航;
周璐;
李彩艳;
袁慧敏;
张异卓;
李昱达;
刘锦钢;
郑丰杰;
孙燕
-
-
摘要:
目的:探索构建适用于中医学领域的分词模型.方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试.结果:中医学分词模型在测试集中的Kappa系数为0.79(一致性程度很高),准确率为0.84,宏观精确率为0.84,宏观召回率为0.83,宏观f1得分为0.83.结论:所构建的分词模型对于中医学专业术语有着较好的切分效果,表明该方法可运用于中医学领域的分词模型的构建,可为进一步地研究中医学分词提供方法学参考.
-
-
张琪;
江川;
纪有书;
冯敏萱;
李斌;
许超;
刘浏
-
-
摘要:
[目的]探究基于深度学习方法的古籍分词词性一体化标注技术,构建覆盖多领域古籍的自动标注模型.[方法]采用涵盖“经史子集”的25部先秦典籍作为训练语料,在未加入任何人工特征的前提下,基于BERT构建了先秦典籍分词词性一体化标注模型.最终将模型应用于《史记》,并对《史记》中构成事件的4种基本词类(人名、地名、时间词、动词)进行整体统计与个例分析.[结果]在语料涵盖历史、政论等多种领域且体裁多样的条件下,所构建的先秦典籍分词词性一体化标注模型在开放测试中分词准确率达到95.98%,词性标注准确率达到88.97%.在《史记》上的应用进一步证明了模型的稳定性和实用性.[局限]通过绘制词类标注混淆热力图分析模型错标类型,发现因词类分布样本不均衡、部分词类句法特征相似、兼类等所造成的词性误标有待进一步解决.[结论]将深度学习模型BERT应用于古汉语分词与词性标注,所构建的分词词性一体化标注模型适用于史籍、诗歌、典章制度等多领域的先秦典籍.
-
-
林麟
-
-
摘要:
目前大多数应急预案系统中事故案例库的案例通常通过人工从网站和书籍中收集而来,不仅工作量大,效率低下,而且获取之后通常是一个案例文本,没有实现自动结构化存储,无法高效的为预案编制提供参考,更不能对救援起到辅助决策支持的作用.针对存在的问题,本系统通过采用网络爬虫技术获取到大量事故案例并通过人工智能中分词技术处理之后进行自动结构化存储;在案例推理中引入KN N算法提高案例推理的案例检索能力,推荐和突发事故相似的事故案例;通过数据收集、数据清洗、结构化存储、数据挖掘和可视化展示,并根据矿区现场情况和事故样本,结合煤矿自身的预案范本生成指导性应急预案蓝本,提高应急预案系统智能化编制应急预案水平.
-
-
王琼;
杨波;
陈佐虎
-
-
摘要:
随着数字化企业建设,电力公司文本数据以指数级增长,电力文本具有电力专业性、文本形式多样性、文本分类不均性等特点。针对分类数据标准和语料库缺乏、自动化程度低等问题,本文提出了少量样本情况下类间共有文本特征词跨类联合分类算法,能够实现少干预情况下的自动快速构建封闭语料库并且实现电力文本自动分类。分别选取5%、10%、15%、20%平均值进行实验,证明了在10%平均值时最少分类特征词可以取得更好的效果。
-
-
-
卢俊之
- 《第三届学术计算语言学研讨会》
| 2006年
-
摘要:
分词不一致的处理是建设一个高质量的语料库所无法回避的问题,识别出分词不一致的不同成因是处理的前提和关键.本文提出了一种基于机器学习的分词不一致自动识别方案,通过两遍识别,以特征词法识别结果为基础,让机器从中学习到规则后辅以人工规则再处理第一遍未识别的不一致字串.我们对200万字语料库中的分词不一致字串进行了实验,封闭测试与开放测试的正确率分别达到85.22%和83.13%.
-
-
-
高山;
张艳;
徐波;
宗成庆;
韩兆兵
- 《全国第六届计算语言学联合学术会议》
| 2001年
-
摘要:
汉语的分词及词性标注是汉语语言处理的基础.虽然,该领域在过去十年已经有了很大进展,但高精度的面向大规模真实文本的分词及标注仍然存在许多困难.本文提出一种基于三元统计模型的汉语分词标注的方法,旨在并行考虑词性及词汇的三元概率模型,兼顾词及词性之间的搭配,实现分词和78类二级词性标注的整体最优,实验结果显示该方法获得很高的正确率.
-
-
冼健;
莫玄朗;
奚建清
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2006)》
| 2006年
-
摘要:
智能答疑系统是将学生的问题和老师的解答有机地组织起来并存放至相应的答题库中,通过自然语言的语义理解技术来分析并自动的匹配学生所提出的问题,自动地给予问题解答的系统.智能答疑系统能够给予提问者即时的回应,减轻教学人员的工作压力,在远程教学中具有重要意义.红棉智能答疑系统(原型系统)针对国内现有的智能答疑系统普遍存在的问题,借鉴了国外先进智能答疑系统的成功经验与设计理念,根据中文智能答疑的特殊需求,引入了基于概率的双向最大匹配分词算法、智能问题模式匹配、基于语义依存树的语义分析等技术进行智能问题分析,形成了具有更高答案召回率、合理性与正确性的新一代智能答疑系统.
-
-
曲维光
- 《第二届全国学生计算语言学研讨会》
| 2004年
-
摘要:
本文利用中科院计算所ICTCLAS系统对《人民日报》1998年1月语料进行标注,并与北京大学免费发布的《人民日报》1998年1月标注语料进行比对分析,找出ICTCLAS系统存在的一些缺陷,提出进一步提高标注效果的方法.
-
-
孙雄勇
- 《第二届HNC与语言学研讨会》
| 2003年
-
摘要:
HNC的句类分析处理句子的基本策略是:"中间切入,先上后下"。概括为三个环节:语义块感知,句类假设检验,语义块构成分析。HNC的分词处理则贯穿在这三个环节当中。本文分别从伪词和新词两方面介绍HNC的处理方法。对伪词的分析本文从三个方面来进行了讨论,对于新词,本文从以下的四个方面进行了介绍。介绍了HNC理论下对于解决分词以及新词的优势。
-
-
-
-
-
-
- 杭州电子科技大学
- 公开公告日期:2022.03.08
-
摘要:
本发明公开了一种基于分词工具共性信息和部分监督学习的分词方法。本发明步骤如下:(1)使用大量无标注数据和BiLSTM神经网络预训练一个具有多种分词工具共性信息的BiLSTM模块,获得训练好的BiLSTM神经网络模块;(2)使用少量标注数据训练初始分词模型,得到基于卷积神经网络和多种分词工具共性信息的初始分词模型M0。(3)利用M0对大量无标注数据集进行标注,得到大量伪标签数据。修改M0中的损失函数,利用少量标注数据和大量伪标签数据共同训练损失函数修改后的M0,得到基于多种分词工具共性信息和部分监督学习的中文分词模型M1。(4)迭代步骤(3)n次,得到最终分词模型Mn。本发明提高跨领域中文分词的准确率。
-
-
-
-
-
-
-
-