您现在的位置: 首页> 研究主题> TF-IDF

TF-IDF

TF-IDF的相关文献在2002年到2022年内共计512篇,主要集中在自动化技术、计算机技术、信息与知识传播、无线电电子学、电信技术 等领域,其中期刊论文492篇、会议论文4篇、专利文献16篇;相关期刊237种,包括现代图书情报技术、电子设计工程、电脑知识与技术等; 相关会议4种,包括数字图书馆高层论坛2010年年会、2008年全国模式识别学术会议、第二十四届中国数据库学术会议等;TF-IDF的相关文献由1266位作者贡献,包括吕学强、李昌兵、谢飞等。

TF-IDF—发文量

期刊论文>

论文:492 占比:96.09%

会议论文>

论文:4 占比:0.78%

专利文献>

论文:16 占比:3.12%

总计:512篇

TF-IDF—发文趋势图

TF-IDF

-研究学者

  • 吕学强
  • 李昌兵
  • 谢飞
  • 于劲松
  • 刘岩
  • 张琳
  • 张艳荣
  • 徐朝军
  • 怀丽波
  • 朱晋
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 周自强; 王文浩; 李政翰; 姜久超
    • 摘要: 为了提高备品备件管理的效率,将文本相似度算法如余弦相似度、TF-IDF相似度算法应用于备品备件管理中,通过将文本映射成空间向量后对向量进行运算,将文字比较转换为数值比较,实现了相似备件识别、同类型备件分类以及备件检索功能,为备品备件管理提供了新思路。
    • 王金凤; 徐正强; 冯立杰; 李康
    • 摘要: 鉴于在目前的技术机会识别中存在研判的创新路径往往较为抽象和模糊,并在很多情况下需领域专家参与解读的问题,以冷库技术为例,研究构建基于文本挖掘、机器学习算法及多维空间专利地图的技术创新路径识别模型。首先,构建技术创新路径识别框架对相关专利文献进行分词、清洗等预处理并建立知识图谱;其次,采用融合词频-逆文档频率(TF-IDF)文本挖掘方法对专利文档提取关键词,继而采用隐含狄利克雷分布(LDA)算法对主题聚类降维并萃取创新维度;再次,依据目标技术问题和目标优选创新法则耦合变换于多维空间专利地图并具象出具有现实意义、有价值前景的创新路径;最后,利用可拓学计算各创新路径综合关联度评级优选。以期减少创新成本、提高创新效率,为企业精准开展技术创新、不断提升核心竞争力提供决策参考。
    • 邵欣欣
    • 摘要: 为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在计算输入词序列向量均值时,偏向高群分度的词条;最后将文本内容以字符顺序进行大小为N的窗口滑动操作,使其更适用于商品标题分类。基于Anaconda平台,对基于FastText的商品分类算法进行实现和优化,经评估,最终的分类器准确率较高,能够满足电商平台对商品分类的需求。
    • 吴宗卓
    • 摘要: 文本分类中的一个主要问题是如何提高分类准确性。为了提高分类准确性,提出了一种基于TF-IDF的新的加权方法TF-IDF-IF。此方法引入了一个新的参数来表示类内特征,它用来计算一个类中文档中的术语频率。实验使用CHI卡方统计特征选择方法在数据集中选择1000个特征,然后使用TF-IDFTF-IDF-CF、LTC和TFC方法在一些常用的分类器如朴素贝叶斯、贝叶斯网络、KNN、SVM中进行实验。实验结果表明,这种方法可以取得很好的效果。
    • 关慧; 盛靖媛; 曹同洲
    • 摘要: 由于传统的TF-IDF算法没有很好地分配特征词的权重,从而会出现特征提取不充分并且效率低等问题,导致结果不符合实际情况。为了解决该方法在SQL注入攻击检测时所产生的局限性,本文通过在传统的TF-IDF算法里面加入文本数量比因子和卡方统计量CHI来改进TF-IDF,能够很好地改善一些重要词汇的权重问题。通过选择不同的分类器实现SQL注入攻击的检测,从而获得不同的分类结果。实验结果表明,Boosted Decision Tree和改进的TF-IDF相结合的方法与其它同类方法相比,具有更高的准确率、召回率和F1值。此外,本文算法相较于传统的TF-IDF算法对SQL注入攻击检测的正确率、准确率、召回率、F1值均提高5%左右,具有一定的实际应用前景。
    • Hongli Luo; Jiangwei Yu; Zhihui Du; Shiyu Tan
    • 摘要: Objective:To explore the characteristics of intelligent syndrome diagnosis and intelligent syndrome differentiation of pediatric sweat syndrome by retrospectively studying the traditional Chinese medicine(TCM)-based diagnosis and rule of drug use on pediatric sweat syndrome in China Academic Journal Full-text Database(CNKI),Wanfang Database(WF)and VIP database.Methods:Modern literature on pediatric sweat syndrome was collected with Endnote software,and the collected data were input into The Microsoft Excel 2010 table.TF-IDF relative entropy quantitative analysis was used to extract the intelligent diagnosis and intelligent medication rule of pediatric sweat syndrome in modern literature.Results:TF-IDF was used to obtain the syndrome’s type-symptom fuzzy matrix and syndrome’s type-TCM fuzzy matrix of qi-yin deficiency and qi-deficiency.Conclusion:The intelligent syndrome diagnosis and intelligent syndrome differentiation law of modern data mining in the treatment of children sweat syndrome accord with the basic theory of TCM,and can provide clinical reference to a certain extent.
    • 毛典辉; 梁秀霞; 赵爽; 郝治昊
    • 摘要: 区块链技术的出现给各行各业带来了新的变革,同时也给诈骗提供了新的平台。作为金融诈骗的代表形式——庞氏骗局借助智能合约在二代区块链上给人们制造了巨大的损失,这不仅影响区块链技术的发展,同时也在一定程度上扰乱了正常的社会经济秩序,因此,对借助区块链技术实施庞氏骗局的相关平台进行监管势在必行。该文选取区块链平台以太坊作为研究对象,设计了一种基于智能合约混合特征的庞氏骗局检测算法。首先根据交易主体间的关联特征判断其是否符合庞氏骗局中回报不公平的金字塔交易形式,提取智能合约交易特征;其次根据智能合约的操作代码在庞氏骗局合约和其他合约出现频率设计了一种新的ITF算法,提取区分庞氏骗局智能合约的操作码特征;最后采用Catboost集成学习算法来训练庞氏骗局检测模型,算法强调多个特征之间的联系,并解决检测算法训练过程中梯度偏差以及预测偏移问题。与其他算法相比,该算法在庞氏骗局检测上具有较高的准确率(精确率=0.89、召回率=0.78、F1值=0.82)。
    • 林叶菁; 刘干
    • 摘要: 人文景观是展现城市文化,提升城市文化知名度的重要途径。本文选取携程网和大众点评有效评论作为研究数据,采用词频–逆文档率(TF-IDF)、语义网络和情感分析,研究游客对郭庄、钱王祠、苏堤、雷峰塔、岳王庙、灵隐寺6个西湖人文景观的认知形象、情感形象和整体形象。结果表明:1) 杭州西湖人文景观旅游认知形象要素可归纳为景点的历史文化、建筑与风景、景点活动、交通、设施和服务;2) 旅游情感形象以积极为主,景点整体形象较好,游客对景点的人文历史、风景和服务设施较认可;3) 景点存在人文体验打造不足、服务不到位、门票性价比低等情况。本研究丰富了人文景观旅游研究,为杭州西湖人文景观形象塑造提供建议。
    • 张超群; 郝小芳; 王大睿; 李晓翔; 完颜兵
    • 摘要: 随着大数据时代的到来及人民生活水平的不断提高,旅游业迅速发展。鉴于游客满意度直接影响目的地美誉度,有必要对游客目的地印象进行分析。本文根据文本分析理论,首先对“泰迪杯”挑战赛官网、穷游网的网评文本数据进行数据预处理,再用Jieba库分词,接着用TF-IDF算法提取关键词,根据Kmeans得出聚类中心,结合KNN算法将其分类,最后用LDA模型进行主题分析并映射为特征需求。实验结果表明,游客主要关注目的地的服务、位置、设施、性价比、卫生,根据特征需求了解游客偏好,据此对旅游企业健康持续发展提出三条有益建议,有助于优化旅游资源配置,提高游客满意度和提升目的地美誉度。
    • 马伟彬
    • 摘要: 本文分析探讨基于TF-IDF、LSI的文本相似度算法在专利文献相似度计算中的实现,并对现有的TF-IDF、LSI的文本相似度算法的基础文本进行调整,减少了噪声信息的影响。相似度算法可以计算不同文本之间的相似程度。词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)模型、潜在语义索引(Latent Semantic Indexing,LSI)模型是常见的文本相似度计算模型。本文分析探讨基于TF-IDF、LSI的文本相似度算法在专利文献相似度计算中的实现,并对现有的TF-IDF、LSI的文本相似度算法的咨询矢量进行调整,减少了噪声信息的影响。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号