首页> 外文期刊>Datenbank-Spektrum >QUALM: Ganzheitliche Messung und Verbesserung der Datenqualität in der Textanalyse
【24h】

QUALM: Ganzheitliche Messung und Verbesserung der Datenqualität in der Textanalyse

机译:QUALM:文本分析中的全部测量和提高数据质量

获取原文
获取原文并翻译 | 示例
           

摘要

Bestehende Ansätze zur Messung und Verbesserung der Qualität von Textdaten in der Textanalyse bringen drei große Nachteile mit sich. Evaluationsmetriken wie zum Beispiel Accuracy messen die Qualität zwar verlässlich, sie (1) sind jedoch auf aufwändig händisch zu erstellende Goldannotationen angewiesen und (2) geben keine Ansatzpunkte für die Verbesserung der Qualität. Erste domänenspezifische Datenqualitätsmethoden für unstrukturierte Textdaten kommen zwar ohne Goldannotationen aus und geben Ansatzpunkte zur Verbesserung der Datenqualität. Diese Methoden wurden jedoch nur für begrenzte Anwendungsgebiete entwickelt und (3) berücksichtigen deshalb nicht die Spezifika vieler Analysetools in Textanalyseprozessen. In dieser Arbeit präsentieren wir hierzu das QUALM-Konzept zum qualitativ hochwertigen Mining von Textdaten (QUALity Mining), das die drei o.g. Nachteile adressiert. Das Ziel von QUALM ist es, die Qualität der Analyseergebnisse, z. B. bzgl. der Accuracy einer Textklassifikation, auf Basis einer Messung und Verbesserung der Datenqualität zu erhöhen. QUALM bietet hierzu eine Menge an QUALM-Datenqualitätsmethoden. QUALM-Indikatoren erfassen die Datenqualität ganzheitlich auf Basis der Passung zwischen den Eingabedaten und den Spezifika der Analysetools, wie den verwendeten Features, Trainingsdaten und semantischen Ressourcen (wie zum Beispiel Wörterbüchern oder Taxonomien). Zu jedem Indikator gehört ein passender Modifikator, mit dem sowohl die Daten als auch die Spezifika der Analysetools verändert werden können, um die Datenqualität zu erhöhen. In einer ersten Evaluation von QUALM zeigen wir für konkrete Analysetools und Datensätze, dass die Anwendung der QUALM-Datenqualitätsmethoden auch mit einer Erhöhung der Qualität der Analyseergebnisse im Sinne der Evaluationsmetrik Accuracy einhergeht. Die Passung zwischen Eingabedaten und Spezifika der Analysetools wird hierzu mit konkreten QUALM-Modifikatoren erhöht, die zum Beispiel Abkürzungen auflösen oder automatisch auf Basis von Textähnlichkeitsmetriken passende Trainingsdaten vorschlagen.
机译:在文本分析中测量和提高文本数据质量的现有方法带来了三个主要缺点。虽然评估指标如精度可靠地测量质量,但它们(1)依赖于精心管理的黄金测定和(2)没有提高质量的起点。用于非结构化文本数据的第一个特定于域的数据质量方法,无需黄金测定,并为提高数据质量提供起点。但是,这些方法仅开发了仅适用于有限的应用领域,并且(3)因此不会考虑文本分析过程中许多分析工具的具体细节。在这项工作中,我们介绍了文本数据的高质量挖掘(质量挖掘)的Qualm概念,它解决了三个组织。缺点。 Qualm的目的是分析结果的质量,例如,例如,为了提高文本分类的准确性,基于数据质量的测量和改进。 Qualm提供了许多Qualm数据质量方法。 Qualm指示符基于输入数据与分析工具的细节之间的拟合,诸如使用,培训数据和语义资源(如词典或分类)之间的拟合来捕获数据质量。每个指示器包括合适的修改器,其中可以改变数据和分析工具的细节以增加数据质量。在对QUARM的第一次评估中,我们展示了具体的分析工具和记录,Qualm数据质量方法的应用还包括增加分析质量在评估度量准确度的含义内。输入数据与分析工具的细节之间的拟合将随着具体质量修饰符提高,例如,提出缩写或自动提出基于文本等度量的适当培训数据。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号