mirror of
https://github.com/dair-ai/Prompt-Engineering-Guide
synced 2024-11-06 09:20:31 +00:00
rag-faithfulness
This commit is contained in:
parent
82a7592ece
commit
c25f5173a0
@ -2,7 +2,7 @@
|
||||
|
||||
import {Bleed} from 'nextra-theme-docs'
|
||||
|
||||
Meta hat kürzlich ihre neue Familie großer Sprachmodelle (LLMs), genannt Llama 3, [vorgestellt](https://llama.meta.com/llama3/). Diese Veröffentlichung umfasst vorab trainierte und anweisungsoptimierte Modelle mit 8B und 70B Parametern.
|
||||
Meta hat kürzlich ihre neue Familie großer Sprachmodelle (LLMs), genannt Llama 3, [vorgestellt](https://llama.meta.com/llama3/). Diese Veröffentlichung umfasst vorab trainierte und anweisungsoptimierte Modelle mit 8 Milliarden und 70 Milliarden Parametern.
|
||||
|
||||
## Architekturdetails zu Llama 3
|
||||
|
||||
@ -29,7 +29,7 @@ Die vorab trainierten Modelle übertreffen ebenfalls andere Modelle bei mehreren
|
||||
|
||||
## Llama 3 400B
|
||||
|
||||
Meta berichtete auch, dass sie ein Modell mit 400B Parametern veröffentlichen werden, das derzeit noch trainiert wird und bald verfügbar sein soll! Es gibt auch Bemühungen um multimodale Unterstützung, mehrsprachige Fähigkeiten und längere Kontextfenster. Der aktuelle Checkpoint für Llama 3 400B (Stand 15. April 2024) liefert die folgenden Ergebnisse bei gängigen Benchmarks wie MMLU und Big-Bench Hard:
|
||||
Meta berichtete auch, dass sie ein Modell mit 400 Milliarden Parametern veröffentlichen werden, das derzeit noch trainiert wird und bald verfügbar sein soll! Es gibt auch Bemühungen um multimodale Unterstützung, mehrsprachige Fähigkeiten und längere Kontextfenster. Der aktuelle Checkpoint für Llama 3 400B (Stand 15. April 2024) liefert die folgenden Ergebnisse bei gängigen Benchmarks wie MMLU und Big-Bench Hard:
|
||||
|
||||
!["Llama 3 400B"](../../img/llama3/llama-400b.png)
|
||||
*Quelle: [Meta AI](https://ai.meta.com/blog/meta-llama-3/)*
|
||||
@ -46,4 +46,4 @@ Hier folgt eine längere Bewertung von Llama 3:
|
||||
src="https://www.youtube.com/embed/h2aEmciRd6U?si=m7-xXu5IWpB-6mE0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
|
||||
allowFullScreen
|
||||
/>
|
||||
</Bleed>
|
||||
</Bleed>
|
||||
|
@ -2,6 +2,7 @@
|
||||
"llm-agents": "LLM Agenten",
|
||||
"rag": "RAG für LLMs",
|
||||
"llm-reasoning": "LLM Reasoning",
|
||||
"rag-faithfulness": "RAG Zuverlässigkeit",
|
||||
"llm-recall": "LLM In-Context Recall",
|
||||
"thoughtsculpt": "ThoughtSculpt",
|
||||
"infini-attention": "Infini-Attention",
|
||||
|
26
pages/research/rag-faithfulness.de.mdx
Normal file
26
pages/research/rag-faithfulness.de.mdx
Normal file
@ -0,0 +1,26 @@
|
||||
# Wie zuverlässig sind RAG-Modelle?
|
||||
|
||||
import {Bleed} from 'nextra-theme-docs'
|
||||
|
||||
<Bleed>
|
||||
<iframe width="100%"
|
||||
height="415px"
|
||||
src="https://www.youtube.com/embed/eEU1dWVE8QQ?si=b-qgCU8nibBCSX8H" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
|
||||
allowFullScreen
|
||||
/>
|
||||
</Bleed>
|
||||
|
||||
Dieses neue Paper von [Wu et al. (2024)](https://arxiv.org/abs/2404.10198) zielt darauf ab, das Kräftemessen zwischen den RAG-Modellen und der internen Priorisierung von LLMs zu quantifizieren.
|
||||
|
||||
Es konzentriert sich dabei auf GPT-4 und andere LLMs bei der Beantwortung von Fragen zur Analyse.
|
||||
|
||||
Es wurde festgestellt, dass das Bereitstellen korrekter abgerufener Informationen die meisten Fehler des Modells korrigiert (94% Genauigkeit).
|
||||
|
||||
!["RAG Treue"](../../img/research/rag-faith.png)
|
||||
*Quelle: [Wu et al. (2024)](https://arxiv.org/abs/2404.10198)*
|
||||
|
||||
Wenn die Dokumente mehr falsche Werte enthalten und das interne Priorisieren des LLM schwach ist, neigt das LLM eher dazu, falsche Informationen wiederzugeben. Es wurde jedoch festgestellt, dass die LLMs widerstandsfähiger sind, wenn sie eine stärkere Vorprägung haben.
|
||||
|
||||
Das Paper berichtet auch, dass „je mehr die modifizierte Information von der Vorprägung des Modells abweicht, desto unwahrscheinlicher ist es, dass das Modell sie bevorzugt.“
|
||||
|
||||
Viele Entwickler und Unternehmen setzen RAG-Systeme in der Produktion ein. Diese Arbeit hebt die Bedeutung der Risikobewertung bei der Verwendung von LLMs hervor, die verschiedene Arten von Kontextinformationen enthalten können, die unterstützende, widersprüchliche oder völlig inkorrekte Informationen enthalten können.
|
Loading…
Reference in New Issue
Block a user