llama3 (German)

This commit is contained in:
Erik Behrends 2024-04-26 15:36:23 +02:00
parent 487f338403
commit 82a7592ece
2 changed files with 50 additions and 0 deletions

View File

@ -10,6 +10,7 @@
"gpt-4": "GPT-4",
"grok-1": "Grok-1",
"llama": "LLaMA",
"llama-3": "Llama 3",
"mistral-7b": "Mistral 7B",
"mistral-large": "Mistral Large",
"mixtral": "Mixtral",

View File

@ -0,0 +1,49 @@
# Llama 3
import {Bleed} from 'nextra-theme-docs'
Meta hat kürzlich ihre neue Familie großer Sprachmodelle (LLMs), genannt Llama 3, [vorgestellt](https://llama.meta.com/llama3/). Diese Veröffentlichung umfasst vorab trainierte und anweisungsoptimierte Modelle mit 8B und 70B Parametern.
## Architekturdetails zu Llama 3
Hier eine Zusammenfassung der technischen Details von Llama 3:
- Es verwendet einen standardmäßigen Decoder-only-Transformer.
- Der Wortschatz umfasst 128K Token.
- Es wird auf Sequenzen von 8K Token trainiert.
- Es wendet gruppierte Abfrageaufmerksamkeit (GQA) an.
- Es ist auf über 15T Token vorab trainiert.
- Es beinhaltet eine Nachtrainierung, die eine Kombination aus SFT, Ablehnungs-Stichprobenentnahme, PPO und DPO einschließt.
## Leistung
Auffällig ist, dass Llama 3 8B (anweisungsoptimiert) [Gemma 7B](https://www.promptingguide.ai/models/gemma) und [Mistral 7B Instruct](https://www.promptingguide.ai/models/mistral-7b) übertrifft. Llama 3 70 übertrifft deutlich [Gemini Pro 1.5](https://www.promptingguide.ai/models/gemini-pro) und [Claude 3 Sonnet](https://www.promptingguide.ai/models/claude-3), bleibt jedoch beim MATH-Benchmark etwas hinter Gemini Pro 1.5 zurück.
!["Llama 3 Leistung"](../../img/llama3/llama-instruct-performance.png)
*Quelle: [Meta AI](https://ai.meta.com/blog/meta-llama-3/)*
Die vorab trainierten Modelle übertreffen ebenfalls andere Modelle bei mehreren Benchmarks wie AGIEval (Englisch), MMLU und Big-Bench Hard.
!["Llama 3 Leistung"](../../img/llama3/llama3-pretrained-results.png)
*Quelle: [Meta AI](https://ai.meta.com/blog/meta-llama-3/)*
## Llama 3 400B
Meta berichtete auch, dass sie ein Modell mit 400B Parametern veröffentlichen werden, das derzeit noch trainiert wird und bald verfügbar sein soll! Es gibt auch Bemühungen um multimodale Unterstützung, mehrsprachige Fähigkeiten und längere Kontextfenster. Der aktuelle Checkpoint für Llama 3 400B (Stand 15. April 2024) liefert die folgenden Ergebnisse bei gängigen Benchmarks wie MMLU und Big-Bench Hard:
!["Llama 3 400B"](../../img/llama3/llama-400b.png)
*Quelle: [Meta AI](https://ai.meta.com/blog/meta-llama-3/)*
Die Lizenzinformationen für die Llama 3 Modelle können auf der [Modellkarte](https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md) gefunden werden.
## Ausführliche Bewertung von Llama 3
Hier folgt eine längere Bewertung von Llama 3:
<Bleed>
<iframe width="100%"
height="415px"
src="https://www.youtube.com/embed/h2aEmciRd6U?si=m7-xXu5IWpB-6mE0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
allowFullScreen
/>
</Bleed>