You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Prompt-Engineering-Guide/pages/research/trustworthiness-in-llms.zh.mdx

62 lines
4.2 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 大语言模型的可信度探索
import {Screenshot} from 'components/screenshot'
import TRUSTLLM from '../../img/llms/trustllm.png'
import TRUSTLLM2 from '../../img/llms/trust-dimensions.png'
import TRUSTLLM3 from '../../img/llms/truthfulness-leaderboard.png'
在诸如健康和金融这样的高风险领域开发应用程序时建立可靠的大语言模型LLMs显得尤为关键。虽然大语言模型如 ChatGPT 能够生成易于人类阅读的回答,但在真实性、安全性、隐私保护等多个维度上,它们却无法保证回答的可靠性。
[Sun 等人于 2024 年](https://arxiv.org/abs/2401.05561)进行的一项深入研究,就大语言模型的可信度问题进行了全面讨论,包括面临的挑战、基准测试、评估方法、方案分析及未来的发展方向。
把当前的大语言模型应用到实际生产中,面临的一个主要挑战便是如何确保其可信度。他们的研究提出了一整套大语言模型可信度的原则,覆盖了包括真实性、安全性、公平性、鲁棒性、隐私保护以及机器伦理在内的八个维度,同时还制定了一个涵盖六个维度的评估基准。
作者提出的评估基准旨在从六个方面评估大语言模型的可信度:
<Screenshot src={TRUSTLLM} alt="A benchmark of trustworthy large language models" />
下面定义了可信大语言模型的八个关键维度。
<Screenshot src={TRUSTLLM2} alt="Dimensions of Trustworthy LLMs" />
## 研究成果
该项工作还展示了一项针对 TrustLLM 中 16 款主流大语言模型的评估研究,涵盖了 30 多个数据集。以下是评估结果的几个关键发现:
* 尽管在可信度方面,专有的大语言模型通常优于大多数开源模型,但也有一些开源模型正在逐渐缩小这一差距。
* 模型如 GPT-4 和 Llama 2 能够有效拒绝刻板印象的陈述,并对抗性攻击展现出更强的抵抗力。
* Llama 2 等开源模型在未使用任何特殊的内容审查工具的情况下,其可信度与专有模型相近。论文还提到,某些模型,例如 Llama 2在追求高可信度的过程中有时会牺牲在特定任务上的性能并将一些无害的输入错误地视为有害内容。
## 关键洞察
本文探索了大语言模型在不同可靠性维度上的表现,总结了以下几个关键发现:
* **真实性**:由于训练数据中的噪声、误导性信息或信息过时,大语言模型在保持信息真实性方面面临挑战。然而,那些能够接入外部知识来源的模型,在真实性方面有所提升。
* **安全性**:相比于专有模型,开源大语言模型在处理潜在的安全问题(如防止模型被恶意利用、减少有害内容的生成等)方面通常表现不佳,平衡安全与灵活性成为一大挑战。
* **公平性**:大部分大语言模型在避免产生刻板印象方面做得不够好,即便是先进的模型如 GPT-4在这一领域的准确率也仅约为 65%。
* **鲁棒性**:大语言模型在处理开放式问题或非典型数据分布时,表现出较大的不确定性。
* **隐私**:尽管大语言模型能识别隐私保护的重要性,它们在处理个人敏感信息时的表现却大相径庭。例如,在对 Enron 电子邮件数据集进行测试时,一些模型出现了数据泄露问题。
* **伦理观**:大语言模型对道德原则有基本的理解,但在处理复杂的伦理判断时往往力不从心。
## 大语言模型可信度排行榜
研究者们还建立了一个展示不同模型在可靠性各维度表现的排行榜,例如下表展示了各模型在真实性方面的评价。如官网所述,"更可信的大语言模型在提升指标(标记为↑)上得分更高,在降低指标(标记为↓)上得分更低"。
<Screenshot src={TRUSTLLM3} alt="Trustworthiness Leaderboard for LLMs" />
## 代码资源
你可以在 GitHub 上找到一套完整的评估工具包,用于跨多个维度测试大语言模型的可信度。
代码资源https://github.com/HowieHwong/TrustLLM
## 参考资料
图片来源 / 论文:[TrustLLM: 大语言模型的可信度研究](https://arxiv.org/abs/2401.05561) 2024年1月10日