今日应用
今日话题
IBM推出创新框架用“黑盒”方式,评估大模型的输出
重点标签 大语言模型、AIGC、IBM框架、置信度评估、语义特征
文章摘要
摘要:
本文介绍了IBM研究人员开发的一个评估大语言模型(LLM)输出的置信度和准确性的框架。该框架通过六种提示扰动策略来激发模型输出的变异性,包括随机解码、释义、句子排列、实体频率放大、停用词移除和分割响应一致性。基于这些策略,研究人员构建了语义和句法两种特征,用于训练置信度模型。标签的创建基于模型输出与真实答案的ROUGE分数匹配程度,以区分模型在不同问题上的表现差异。实验结果表明,该框架在多个数据集上显著优于现有黑盒置信度估计方法,具有很好的扩展性和应用性。
详细内容:
1. 大语言模型的重要性:与性能和评测排名相比,大模型输出的准确性、安全性和可解释性更为关键,这些因素直接影响到模型的商业化落地。
2. IBM框架的创新之处:该框架采用黑盒方式,无需访问模型的内部结构、参数或训练数据,即可评估模型输出的置信度。
3. 六种提示扰动策略:
– 随机解码:使用不同的解码技术生成多个输出,反映模型的不确定性。
– 释义:通过反向翻译技术观察输出的变化,检验模型对输出的自信程度。
– 句子排列:改变命名实体的顺序,测试模型输出的一致性。
– 实体频率放大:重复包含命名实体的句子,观察信息重复对输出的影响。
– 停用词移除:移除停用词,观察其对模型响应的影响。
– 分割响应一致性:将输出分割成两部分,用NLI模型测量语义一致性。
4. 置信度模型训练:基于语义和句法特征,利用监督学习流程调整模型参数。语义特征关注输出的语义等价集合数量,句法特征通过计算句法相似性评估置信度。
5. 标签创建规则:根据模型输出与真实答案的ROUGE分数,将标签设置为1(正确)或0(错误),以区分模型在不同问题上的表现。
6. 实验结果:在TriviaQA、SQuAD、CoQA和Natural Questions数据集上,使用flan-ul2、Llama-13b和Mistral-7b三款开源大模型进行实验。结果显示,该框架在AUROC指标上提升了超过10%的性能,优于现有黑盒置信度估计方法。
7. 框架的优势:具有很好的扩展性和应用性,可以添加不同的扰动策略以适应不同类型的大模型。在一个大模型上训练的置信度模型,多数情况下可以应用到同类模型中。
本文素材来源IBM论文,如有侵权请联系删除。