【24h】

ソースコードの「自然さ」を利用した自動生成ファイルの特定

机译:使用源代码“自然”识别自动生成文件

获取原文
获取原文并翻译 | 示例
获取外文期刊封面目录资料

摘要

近年,ソースコード解析に関する研究が盛hに行われている.ソースコードの解析において,解析対象のソースファイルの中には自動生成ファイルが含まれていることがある.しかし解析結果が目立たない場合や解析時間が増加する場合があるため,多くの場合自動生成ファイルは除外して解析する必要がある.自動生成ファイルを除外する方法として,ソースコードが自動生成ファイルであるかを目視で判定するという方法がある.しかしこの方法は時間的コストが大きくなってしまう.他にも自動生成ファイル内に存在する特有のコメント文を文字列検索することにより特定するという方法があるが,この方法に関しても,自動生成ファイル特有のコメント文が消された場合に,自動生成ファイルを自動的に特定できないといった問題がある.そこで本研究では,自動生成コードとしての「自然さ」と人が作成したコードとしての「自然さ」を比較することで任意の自動生成ファイルを自動的に特定する手法を提案する.コードの自然さ,すなわち,自動生成あるいは人が生成したコードとしてもっともらしい度合いは,確率的言語モデルであるN-gram言語モデルによって数値化する.この提案手法を評価するために,4つの自動生成プログラムから生成された自動生成ファイル群を対象に実験を行った.その結果,高い精度で自動生成ファイルを特定できた.また,機械学習に基づいた既存の手法と比較した結果,精度が向上していることを確認した.
机译:近年来,在H草案中进行了对源代码分析的研究。在源代码的分析中,要分析的源文件可能包含自动生成文件。但是,由于分析结果可能不明显或分析时间可能会增加,因此需要排除和分析自动生成的文件。作为排除自动生成文件的方法,存在目视确定源代码是否是自动生成文件的方法。但是,该方法增加了时间成本。还有一种方法来识别字符串搜索的字符串搜索在其他情况下对字符串搜索搜索,而且对于此方法,还可以在删除对自动生成文件的注释语句时自动生成。存在问题无法自动识别文件。因此,在本研究中,我们提出了一种通过将“自然度”与自动生成代码进行比较作为一个人创建的代码来自动识别任意自动生成文件的方法。代码的自然度,即鳄鱼的程度作为人生成的代码或者由人生成的代码,由n克语言模型量化,这是一个概率语言模型。为了评估这一提出的方法,进行了从四个自动生成程序生成的自动生成文件组进行实验。因此,可以高精度地识别自动生成文件。此外,由于与基于机器学习的现有方法相比,证实了准确性得到改善。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号