归因模型函数g的形式化表示
输入:用户问题q
输出:(a, p), 其中a为答案,p为原始文章中支持答案a的段落。
1)单样本归因
针对输入问题q,如何评估归因模型g输出中段落p是对答案a的正确归因。
在论文arributed qa中,依赖nli_cli(NLI classifer)分类器来判断a和p之间是否存在逻辑支撑关系。
归因形式化表示如下
给定问题qi、答案ai和相关段落pi表示为g(qi) =(ai, pi)。
要求nli_cli模型判断,在问题q的上下文中,答案a是否完全由文档段落p支持。
如果nil_cli模型回答1,则认为(q, g(q))正确归因,否则认为(q, g(q))未正确归因。
2)系统整体归因
假设测试系统中n个问题q1, q2, ..., qn,对于每个问题qi,以及归因模型输出(ai, pi)=g(qi)。
采用如上自动评估过程后,该系统的评估函数定义如下
自动归因评估的精度依赖于归因逻辑NLI分类模型的精度。
---
归因问答-如何进行人类评估
https://blog.csdn.net/liliang199/article/details/148935474
(NLI classifier) True
https://github.com/google-research/true
(NLI classifier) TRUE: Re-evaluating Factual Consistency Evaluation
https://arxiv.org/pdf/2204.04991
Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models
https://arxiv.org/pdf/2212.08037
(AutoAIS) RARR: Researching and Revising What Language Models Say, Using Language Models
https://arxiv.org/pdf/2210.08726