Prompt-Engineering-Guide/pages/models/llama-3.de.mdx

48 lines
2.6 KiB
Plaintext
Raw Normal View History

2024-04-26 13:36:23 +00:00
# Llama 3
import {Bleed} from 'nextra-theme-docs'
2024-04-26 14:11:57 +00:00
Meta hat kürzlich ihre neue Familie großer Sprachmodelle (LLMs), genannt Llama 3, [vorgestellt](https://llama.meta.com/llama3/). Diese Veröffentlichung umfasst vorab trainierte und anweisungsoptimierte Modelle mit 8 Milliarden und 70 Milliarden Parametern.
2024-04-26 13:36:23 +00:00
## Architekturdetails zu Llama 3
Hier eine Zusammenfassung der technischen Details von Llama 3:
- Es verwendet einen standardmäßigen Decoder-only-Transformer.
- Der Wortschatz umfasst 128K Token.
- Es wird auf Sequenzen von 8K Token trainiert.
- Es wendet gruppierte Abfrageaufmerksamkeit (GQA) an.
- Es ist auf über 15T Token vorab trainiert.
- Es beinhaltet eine Nachtrainierung, die eine Kombination aus SFT, Ablehnungs-Stichprobenentnahme, PPO und DPO einschließt.
## Leistung
Auffällig ist, dass Llama 3 8B (anweisungsoptimiert) [Gemma 7B](https://www.promptingguide.ai/models/gemma) und [Mistral 7B Instruct](https://www.promptingguide.ai/models/mistral-7b) übertrifft. Llama 3 70 übertrifft deutlich [Gemini Pro 1.5](https://www.promptingguide.ai/models/gemini-pro) und [Claude 3 Sonnet](https://www.promptingguide.ai/models/claude-3), bleibt jedoch beim MATH-Benchmark etwas hinter Gemini Pro 1.5 zurück.
!["Llama 3 Leistung"](../../img/llama3/llama-instruct-performance.png)
*Quelle: [Meta AI](https://ai.meta.com/blog/meta-llama-3/)*
Die vorab trainierten Modelle übertreffen ebenfalls andere Modelle bei mehreren Benchmarks wie AGIEval (Englisch), MMLU und Big-Bench Hard.
!["Llama 3 Leistung"](../../img/llama3/llama3-pretrained-results.png)
*Quelle: [Meta AI](https://ai.meta.com/blog/meta-llama-3/)*
## Llama 3 400B
2024-04-26 14:11:57 +00:00
Meta berichtete auch, dass sie ein Modell mit 400 Milliarden Parametern veröffentlichen werden, das derzeit noch trainiert wird und bald verfügbar sein soll! Es gibt auch Bemühungen um multimodale Unterstützung, mehrsprachige Fähigkeiten und längere Kontextfenster. Der aktuelle Checkpoint für Llama 3 400B (Stand 15. April 2024) liefert die folgenden Ergebnisse bei gängigen Benchmarks wie MMLU und Big-Bench Hard:
2024-04-26 13:36:23 +00:00
!["Llama 3 400B"](../../img/llama3/llama-400b.png)
*Quelle: [Meta AI](https://ai.meta.com/blog/meta-llama-3/)*
Die Lizenzinformationen für die Llama 3 Modelle können auf der [Modellkarte](https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md) gefunden werden.
## Ausführliche Bewertung von Llama 3
Hier folgt eine längere Bewertung von Llama 3:
<iframe width="100%"
height="415px"
src="https://www.youtube.com/embed/h2aEmciRd6U?si=m7-xXu5IWpB-6mE0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
allowFullScreen
/>