Рассмотрена подзадача валидации ответов в задаче вопросно-ответного поиска. Традиционными метриками качества на семинарах TAC-RTE и CLEF-AVE являются аккуратность (accuracy) и F-мера. По результатам участия в семинаре РОМИП-2010 отмечено, что число ложных ответов-гипотез, которые должен отклонить модуль валидации ответов, часто значительно превышает число верных ответов. Предложена новая метрика - взвешенная погрешность, которая чаще штрафует систему за ошибки первого рода (пользователю показан неверный ответ - falsepositive), чем за ошибки второго рода (правильный ответ отвергнут и пользователю не показан - falsenegative). В отличие от F-меры она также поощряет систему за верно отфильтрованный ответ (truenegative).
展开▼