mirror of
https://github.com/dair-ai/Prompt-Engineering-Guide
synced 2024-11-04 12:00:10 +00:00
llama3 (German)
This commit is contained in:
parent
487f338403
commit
82a7592ece
@ -10,6 +10,7 @@
|
||||
"gpt-4": "GPT-4",
|
||||
"grok-1": "Grok-1",
|
||||
"llama": "LLaMA",
|
||||
"llama-3": "Llama 3",
|
||||
"mistral-7b": "Mistral 7B",
|
||||
"mistral-large": "Mistral Large",
|
||||
"mixtral": "Mixtral",
|
||||
|
49
pages/models/llama-3.de.mdx
Normal file
49
pages/models/llama-3.de.mdx
Normal file
@ -0,0 +1,49 @@
|
||||
# Llama 3
|
||||
|
||||
import {Bleed} from 'nextra-theme-docs'
|
||||
|
||||
Meta hat kürzlich ihre neue Familie großer Sprachmodelle (LLMs), genannt Llama 3, [vorgestellt](https://llama.meta.com/llama3/). Diese Veröffentlichung umfasst vorab trainierte und anweisungsoptimierte Modelle mit 8B und 70B Parametern.
|
||||
|
||||
## Architekturdetails zu Llama 3
|
||||
|
||||
Hier eine Zusammenfassung der technischen Details von Llama 3:
|
||||
|
||||
- Es verwendet einen standardmäßigen Decoder-only-Transformer.
|
||||
- Der Wortschatz umfasst 128K Token.
|
||||
- Es wird auf Sequenzen von 8K Token trainiert.
|
||||
- Es wendet gruppierte Abfrageaufmerksamkeit (GQA) an.
|
||||
- Es ist auf über 15T Token vorab trainiert.
|
||||
- Es beinhaltet eine Nachtrainierung, die eine Kombination aus SFT, Ablehnungs-Stichprobenentnahme, PPO und DPO einschließt.
|
||||
|
||||
## Leistung
|
||||
|
||||
Auffällig ist, dass Llama 3 8B (anweisungsoptimiert) [Gemma 7B](https://www.promptingguide.ai/models/gemma) und [Mistral 7B Instruct](https://www.promptingguide.ai/models/mistral-7b) übertrifft. Llama 3 70 übertrifft deutlich [Gemini Pro 1.5](https://www.promptingguide.ai/models/gemini-pro) und [Claude 3 Sonnet](https://www.promptingguide.ai/models/claude-3), bleibt jedoch beim MATH-Benchmark etwas hinter Gemini Pro 1.5 zurück.
|
||||
|
||||
!["Llama 3 Leistung"](../../img/llama3/llama-instruct-performance.png)
|
||||
*Quelle: [Meta AI](https://ai.meta.com/blog/meta-llama-3/)*
|
||||
|
||||
Die vorab trainierten Modelle übertreffen ebenfalls andere Modelle bei mehreren Benchmarks wie AGIEval (Englisch), MMLU und Big-Bench Hard.
|
||||
|
||||
!["Llama 3 Leistung"](../../img/llama3/llama3-pretrained-results.png)
|
||||
*Quelle: [Meta AI](https://ai.meta.com/blog/meta-llama-3/)*
|
||||
|
||||
## Llama 3 400B
|
||||
|
||||
Meta berichtete auch, dass sie ein Modell mit 400B Parametern veröffentlichen werden, das derzeit noch trainiert wird und bald verfügbar sein soll! Es gibt auch Bemühungen um multimodale Unterstützung, mehrsprachige Fähigkeiten und längere Kontextfenster. Der aktuelle Checkpoint für Llama 3 400B (Stand 15. April 2024) liefert die folgenden Ergebnisse bei gängigen Benchmarks wie MMLU und Big-Bench Hard:
|
||||
|
||||
!["Llama 3 400B"](../../img/llama3/llama-400b.png)
|
||||
*Quelle: [Meta AI](https://ai.meta.com/blog/meta-llama-3/)*
|
||||
|
||||
Die Lizenzinformationen für die Llama 3 Modelle können auf der [Modellkarte](https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md) gefunden werden.
|
||||
|
||||
## Ausführliche Bewertung von Llama 3
|
||||
|
||||
Hier folgt eine längere Bewertung von Llama 3:
|
||||
|
||||
<Bleed>
|
||||
<iframe width="100%"
|
||||
height="415px"
|
||||
src="https://www.youtube.com/embed/h2aEmciRd6U?si=m7-xXu5IWpB-6mE0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
|
||||
allowFullScreen
|
||||
/>
|
||||
</Bleed>
|
Loading…
Reference in New Issue
Block a user