文本挖掘
文本挖掘的相关文献在1998年到2023年内共计2158篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究
等领域,其中期刊论文1846篇、会议论文134篇、专利文献50752篇;相关期刊872种,包括情报理论与实践、情报学报、情报杂志等;
相关会议116种,包括中华医学会第二十一次全国医学信息学术会议、第九届(2014)中国管理学年会、中国医学科学院/北京协和医学院医学信息研究所/图书馆2010年学术年会等;文本挖掘的相关文献由4846位作者贡献,包括郑光、吕爱平、姜淼等。
文本挖掘—发文量
专利文献>
论文:50752篇
占比:96.25%
总计:52732篇
文本挖掘
-研究学者
- 郑光
- 吕爱平
- 姜淼
- 郭洪涛
- 崔雷
- 杨秀璋
- 林鸿飞
- 黄名选
- 吕诚
- 杨静
- 武帅
- 王伟
- 蔡峰
- 查青林
- 谭勇
- 展俊平
- 张弛
- 张志华
- 李艳红
- 李静
- 贾焰
- 安新颖
- 张宁
- 张磊
- 李立
- 杨志豪
- 于小民
- 夏换
- 张伦
- 张晨
- 李勇
- 杨树强
- 杨波
- 章成志
- 马静
- 余传明
- 刘建义
- 刘林
- 土田正明
- 大西贵士
- 朱云平
- 李健
- 李彦鹏
- 李良强
- 殷蜀梅
- 王建平
- 王永恒
- 石川开
- 符保龙
- 胥桂仙
-
-
郭对明;
李国清;
胡乃联;
侯杰
-
-
摘要:
基于大数据分析技术,构建了矿山安全隐患多维度分析模型,分析了隐患在时间和空间两个维度上的分布规律;利用主题挖掘模型将众多隐患信息归类,得到了13个隐患主题;利用关联规则挖掘模型探究了不同隐患之间的内在联系,并利用R编程语言对上述结果进行可视化展示.通过对安全隐患的分析研究不仅充分利用了矿山隐患数据,避免了数据资源的浪费,同时也对矿山井下事故预防有一定的指导价值.
-
-
黄鑫
-
-
摘要:
2018年11月,工业和信息化部发布《新一代人工智能产业创新重点任务揭榜工作方案》,征集并遴选一批掌握关键核心技术、具备较强创新能力的单位集中攻关,重点突破一批技术先进、性能优秀、应用效果好的人工智能标志性产品、平台和服务.在现阶段,我国人工智能产业加速发展,从基础支撑、核心技术到行业应用的产业链条正在形成,产业集群初步显现,一批创新活跃、特色鲜明的创新企业加速成长,新模式、新业态不断涌现,整体呈现蓬勃发展态势.但产业发展也面临核心基础技术薄弱、与实体经济融合不够深入等问题.产业主要集中在北京、上海、广东、浙江等省份,我国在人工智能芯片领域、深度学习软件架构领域、中文自然语言处理领域进展显著.本文基于文本挖掘的人工智能产业政策量化路径进行研究与分析.
-
-
王书博;
程贞敏;
苏渝
-
-
摘要:
[研究目的]通过拓展和强化文本,并提出基于Bert的改进模型,以期在对网络评论文本数据进行监督处理时获得更好的精度和效度。[研究方法]该文以茶产品的的网络评论文本为例,运用Word2Vec进行文本的深度学习,将当前经常使用的监管方法设为对照组,将提出的Bert+Transformer模型和Bert+XGB模型设为实验组,进行实证研究。[研究结论]结果表明,Bert+Transformer模型和Bert+XGB模型比当前已经应用的监管手段更加有效,能够在更高的效度和精度上对文本数据进行处理和分析。
-
-
梁龙跃;
刘波
-
-
摘要:
上市公司年报中的描述性文本信息是上市公司信息披露的重要组成部分,通过对上市公司信息披露文本的挖掘与分析可以提高对其财务风险的预测能力。基于BERT(bidirectional encoder representations from transformer)模型与自编码器(autoencoder,AE),提出了BERT-AE融合文本特征提取模型,提取A股市场531家上市公司年报中"经营情况讨论与分析"和"审计报告"的文本特征,构建能够反映财务困境公司与正常公司的文本特征指标,随后将文本特征指标与财务指标数据结合,分别使用Logistic回归、极端梯度提升(extreme gradient boosting,XGBoost)、人工神经网络(artificial neural networks,ANN)、卷积神经网络(convolutional neural networks,CNN)四种模型,检验加入文本特征指标后财务风险预测的准确性是否得到提高,并使用Word2Vec-CNN-AE、Word2Vec-LSTM-AE模型提取财务文本特征进行对比实验。结果表明,三种模型提取的财务文本特征均能使财务预警模型预测的AUC得到提升,且BERT-AE模型提取的财务文本特征使得四种财务预警模型预测的AUC值提升效果更为显著,表明BERT-AE模型有效地提取了财务文本特征,提高了上市公司财务风险预警模型的预测能力。
-
-
胡迪
-
-
摘要:
为合理评价电商平台物流客户满意度情况,提出一种基于评论大数据的物流客户满意度测算方法。首先,以生鲜电商为研究对象爬取大量在线评论,进行分词等操作并基于TF-IDF算法得出生鲜电商物流满意度的关键因素及其权重,随后构建物流属性词向量模型,结合词语权重和其与物流关键因素之间的相似性,区分每句话中的物流属性,确定用户重点关注的物流属性。然后,构建情感分析模型对物流相关评论进行情感分析,计算用户对物流各属性的满意度情况,得到评论中不同物流属性的客户满意度情况。
-
-
戴屹立;
张建鹏;
陈鹏;
舒小朋
-
-
摘要:
城市轨道交通工程安全质量管理的主要抓手是建设单位对施工单位的定期检查,检查形成的信息可以作为管理决策的主要依据。文章将基于Python的大数据分析方法融入传统安全质量管理中,通过安全质量检查问题反馈的文本挖掘大数据信息,提出安全质量关键问题的发现路径。以苏州市轨道交通7号线为例,进行大数据实例化分析,给出相关分析结果,为建设单位进行安全质量管控提供指导依据。
-
-
汪凡;
葛玉辉
-
-
摘要:
以携程网、去哪儿网收集的游记攻略为研究素材,基于旅游目的地“认知-情感”理论,运用ROST CM6软件对收集到的网络文本进行内容分析。研究发现:游客对于旅游资源、旅游环境的整体满意度较高,正面评价占比83.05%,中性及消极情绪较少;消极情感主要来源于单一的旅游活动、不合理的联票制度及配套的旅游基础设施。针对消极情感来源提出改进建议,为提升自然风光型景区形象感知提供参考和借鉴。
-
-
梅芳君;
陈永鸿
-
-
摘要:
我国目前适用于城市更新改造项目选择社会投资人(合作伙伴)的法律主要是依照《中华人民共和国招标投标法》,基于昆明市公共资源交易平台的城市更新改造项目的招标数据,本文通过LDA主题模型挖掘相关热点,对城市更新改造项目选择社会投资人(合作伙伴)的招标资质设置进行分析,通过理性解剖并思考招标工作中存在的问题和难点,结合相关案例数据,对这些问题进行研究,结合实践与理论思考,为以后城市更新改造项目选择社会投资人(合作伙伴)市场化、规范化提供一些对策建议。
-
-
陈志远;
王铁骊
-
-
摘要:
为充分挖掘事故调查报告中的有效信息,明确安全管理工作的内容。首先,利用文本挖掘分析事故调查报告,采用最小词频阈值文档频改进信息增益评估函数对分词结果降噪,通过回溯特征项在报告中的具体表述,提取事故致因,再构建同义词词库。然后,引入复杂网络以改进TF-IDF,综合事故致因因素的关联特征评估其重要度。最后,以房屋市政较大及以上生产安全事故为例,收集2010—2019年事故调查报告158份,研究结果表明:监督管理不到位是导致房屋市政较大以上事故最重要的因素。本方法可用于发现以往事故的原因,更能全面准确地衡量事故致因的重要度。
-
-
李宁;
顾玲琍;
杨耀武
-
-
摘要:
上海建设具有全球影响力的科技创新中心战略实施以来,出台了一系列配套政策,如何让政策对象更便捷地知政策、懂政策、用政策,是科技政务服务的重点。数字化转型新时代,科技政策智慧服务能够畅通科技政策过程,推进科技治理模式变革。上海科技“政策北斗”导航平台(以下简称“政策北斗”)是上海市科学技术委员会推出的一个科技政策智慧服务工具,于2018年5月在全国率先上线,借助大数据技术、文本挖掘、用户画像等方法和手段,以科技政策为核心,开展政策文本数据化、系统化集成,构建“政策对象-政策要点-政策路径”三位一体的政策知识图谱。
-
-
陈小峰;
齐晓明;
赵雅迪;
张利鹏
- 《2019电力行业信息化年会》
| 2019年
-
摘要:
文本挖掘技术作为描述性数据分析的重要手段,在电网业务中发挥着愈加重要的作用.创建了电网生产工单文本分析系统,利用结巴分词技术处理工单中文本内容,基于TF-IDF算法计算关键词重要性权重值,构建电力关键词库.通过构建贝叶斯文本分类模型,对工单内容完成缺陷部位、类别、原因的自动分类,提升数据质量和系统自动化水平,助力业务部门提高工作效率,为电网业务分析及未来发展方向提供依据.
-
-
陈琴菲;
熊海辉;
张引;
叶含笑
- 《第五届中国中医药信息大会》
| 2018年
-
摘要:
中医是中国的国粹之一,已经经历了几千年的发展.中医医案作为中医传承的重要载体,体现了中医理、法、方、药的综合运用,蕴含了历代名医丰富的临床诊疗经验,对于中医的学习、研究和发展具有“宣明往范,昭示来学”的作用.然而,医案的文体多样、文白混杂、标准化欠佳等特性,对医案的分类、组织和分析挖掘带来了极大的挑战.此外,医生在撰写医案的时候通常只是对治病过程的简单记录,很少对医案起标题或是进行概括总结.随着医案数目的日益增加,从海量的医案中找到所需也变得十分困难.而医案标题能够快速显示医案的主要诊治内容,加快信息的获取,因此针对原始医案书籍中没有标题的医案,本文提出了一种基于文本挖掘技术的医案标题的自动生成方法.
-
-
罗家辉;
高鹰
- 《第17届教育技术国际论坛》
| 2018年
-
摘要:
针对学生抄袭实验报告及评价方式单一的问题,设计开发出一个新型的实验报告系统.与传统的实验报告系统相比,本研究增设了实验报告抄袭检测、实验报告符合度分析和多元互动评价三个子系统,它弥补了传统实验报告管理系统的缺陷,在一定程度上避免了学生的抄袭.同时,该系统对实验报告的符合度进行了分析,并通过自评、同学评、教师评、机器评等多种方式对实验成绩进行评价,帮助教师对学生实验掌握情况进行全面的判断,打破了传统以教师为中心的课堂教学模式.本文主要研究了人工智能技术对高校实训教学的影响,从600份实验报告的分析结果中表明,机器利用文本挖掘的方法对实验报告进行评价,准确率达72.84%.故本研究在一定程度上遏制了抄袭剽窃现象,在帮助教师对学生进行全面评价中起到重要的作用.
-
-
蹇奕苹;
余中心;
张远鹏;
梁娜;
肖兵;
秦金廷
- 《中华医学会第二十四次全国医学信息学术会议》
| 2018年
-
摘要:
电子病历是医学真实世界数据的最主要来源之一.而电子病历中存在大量非结构化的医学文本数据,给电子病历的分析、挖掘与研究带来了极大困难.自然语言处理技术使得对电子病历医学文本的挖掘与分析成为了可能.该文对自然语言处理技术在电子病历文本挖掘领域的基本方法研究与医学领域应用现状进行了综述.结论认为目前深度学习已经成为了电子病历文本自然语言处理的热门研究领域之一;自然语言处理技术已经越来越多的应用于各临床医学相关领域,用于临床决策支持与推动医学研究发展;中文的电子病历文本自然语言处理技术仍然需要大量的基础建设.该文旨在对该领域的国内外发展现状和未来趋势做出讨论与梳理,为更多的学者提供信息,进而促进中国相关领域科研与应用的发展.
-
-
潘若愚;
姚浩浩;
朱克毓
- 《第十二届(2017)中国管理学年会》
| 2017年
-
摘要:
文本挖掘是数据挖掘的一个重要分支,其应用前景十分广泛.本文通过爬虫技术爬取相关文献的关键词,并对关键词进行整合.再利用词频分析法,对近十年国内外文本挖掘的研究方向、研究方法、研究应用领域进行具体分析,通过对高频关键词的统计,基于国内外的研究趋势综合考虑,对国内外文本挖掘的研究热点和研究趋势进行了分析和预测.为后面学者在研究文本挖掘时提供一定的参考依据.
-
-
-
-
-
郑梦雷;
陈翚;
葛梅;
梁华
- 《2018年中国城市交通规划年会》
| 2018年
-
摘要:
城市交通问题一直是重点民生问题之一,从市民的投诉里提取出的交通信息更能一针见血的反应实际问题,对于辅助交管部门评估工作成效并及时制定对应措施改善交通问题具有重要意义.本文以苏州姑苏区交通舆情数据为核心,融合实时车速、交通违法和交通事故数据,对苏州姑苏区交通大整治工作成效进行多维度的分析研究.本文形成了带有苏州本地化属性的交通专业词库,成功应用了基于模式匹配的文本挖掘技术,应用地理信息技术,将民意处理成时间、位置和交通事件的三维量化信息,进行空间可视化及统计分析.研究结果表明多源数据分析结果与实际交通情况十分吻合,能较好地为交管部门提供工作评估手段和管理决策支持.
-
-
LIANG Li-keng;
梁礼铿;
LI Jing-bo;
黎敬波
- 《第八届全国中医药博士生学术论坛》
| 2017年
-
摘要:
目的:通过比较两个基于最大概率法的症状提取方案,探讨中医症状信息的提取和标准化.方法:数据分析和处理在R3.3.2上进行.运用《诊断学》《中医诊断学》及1000份已标记的肺炎住院病历建立症状标准化数据库,症状描述词库和关键词-形容词词库.基于最大概率法分别设计出中文分词方案,直接提取方案和组合提取方案.并用这3种方案对2311份肺炎病历进行症状信息提取和标准化,从产生维度、手工处理情况、症状提取效果对方案进行比较.结果:直接提取方案和组合提取方案均能有效降低维度,组合提取方案手工处理百分比较小和症状提取效果较好.结论:基于最大概率法的组合提取方案能有效提取中医症状信息.