Prompt-Engineering-Guide/pages/models/collection.de.mdx

# LLM-Sammlung

import { Callout, FileTree } from 'nextra-theme-docs'

Dieser Abschnitt besteht aus einer Sammlung und Zusammenfassung bemerkenswerter und grundlegender LLMs (Large Language Models).

## Modelle

| Modell | Veröffentlichungsdatum | Größe (B) | Checkpoints | Beschreibung |
| --- | --- | --- | --- | --- |
| [Falcon LLM](https://falconllm.tii.ae/) | Sep 2023 | 7, 40, 180 | [Falcon-7B](https://huggingface.co/tiiuae/falcon-7b), [Falcon-40B](https://huggingface.co/tiiuae/falcon-40b), [Falcon-180B](https://huggingface.co/tiiuae/falcon-180B) | Falcon LLM ist ein grundlegendes Large Language Model mit 180 Milliarden Parametern, trainiert mit 3500 Milliarden Tokens. TII hat nun Falcon LLM veröffentlicht – ein 180B-Modell. |
| [Mistral-7B-v0.1](https://arxiv.org/abs/2310.06825) | Sep 2023 | 7 | [Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) | Mistral-7B-v0.1 ist ein vortrainiertes generatives Textmodell mit 7 Milliarden Parametern. Das Modell basiert auf einer Transformer-Architektur mit Funktionen wie Grouped-Query Attention, Byte-fallback BPE Tokenizer und Sliding-Window Attention. |
| [CodeLlama](https://scontent.fbze2-1.fna.fbcdn.net/v/t39.2365-6/369856151_1754812304950972_1159666448927483931_n.pdf?_nc_cat=107&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=aLQJyBvzDUwAX-5EVhT&_nc_ht=scontent.fbze2-1.fna&oh=00_AfA2dCIqykviwlY3NiHIFzO85n1-JyK4_pM24FJ5v5XUOA&oe=6535DD4F) | Aug 2023 | 7, 13, 34 | [CodeLlama-7B](https://huggingface.co/codellama/CodeLlama-7b-hf), [CodeLlama-13B](https://huggingface.co/codellama/CodeLlama-13b-hf), [CodeLlama-34B](https://huggingface.co/codellama/CodeLlama-34b-Instruct-hf) | Die Code Llama-Familie ist für die allgemeine Synthese und das Verständnis von Code konzipiert. Sie ist speziell für das Befolgen von Anweisungen und sichereren Einsatz optimiert. Die Modelle sind autoregressiv und verwenden eine optimierte Transformer-Architektur. Sie sind für kommerzielle und Forschungszwecke in Englisch und relevanten Programmiersprachen vorgesehen. |
| [Llama-2](https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/) | Jul 2023 | 7, 13, 70 | [Llama-2-7B](https://huggingface.co/meta-llama/Llama-2-7b), [Llama-2-13B](https://huggingface.co/meta-llama/Llama-2-13b), [Llama-2-70B](https://huggingface.co/meta-llama/Llama-2-70b-chat-hf) | LLaMA-2, entwickelt von Meta AI, wurde im Juli 2023 mit Modellen von 7, 13 und 70 Milliarden Parametern veröffentlicht. Es behält eine ähnliche Architektur wie LLaMA-1, verwendet aber 40 % mehr Trainingsdaten. LLaMA-2 umfasst grundlegende Modelle und dialogoptimierte Modelle, bekannt als LLaMA-2 Chat, und steht für viele kommerzielle Anwendungen zur Verfügung, allerdings mit einigen Einschränkungen. |
| [XGen-7B-8K](https://arxiv.org/abs/2309.03450) | Jul 2023 | 7 | [XGen-7B-8K](https://huggingface.co/Salesforce/xgen-7b-8k-inst) | Das von Salesforce AI Research entwickelte XGen-7B-8K ist ein Sprachmodell mit 7 Milliarden Parametern. |
| [Claude-2](https://www.anthropic.com/index/claude-2) | Jul 2023 | 130 | - | Claude 2 ist ein grundlegendes LLM, das von Anthropic entwickelt wurde und sicherer und "steuerbarer" als seine Vorgängerversion sein soll. Es ist konversationsfähig und kann für eine Vielzahl von Aufgaben wie Kundensupport, Q&A und mehr verwendet werden. Es kann große Textmengen verarbeiten und eignet sich gut für Anwendungen, die umfangreiche Daten wie Dokumente, E-Mails, FAQs und Chat-Transkripte verarbeiten müssen. |
| [Tulu](https://arxiv.org/abs/2306.04751) | Jun 2023 | 7, 13, 30, 65 | [Tulu-7B](https://huggingface.co/allenai/tulu-7b), [Tulu-13B](https://huggingface.co/allenai/tulu-13b) [Tulu-30B](https://huggingface.co/allenai/tulu-30b), [Tulu-65B](https://huggingface.co/allenai/tulu-65b) | Tulu ist eine Modellfamilie, die vom Allen Institute for AI entwickelt wurde. Die Modelle sind LLaMa-Modelle, die auf einer Mischung von Anweisungsdatensätzen feinabgestimmt wurden, darunter FLAN V2, CoT, Dolly, Open Assistant 1, GPT4-Alpaca, Code-Alpaca und ShareGPT. Sie sind darauf ausgelegt, komplexe Anweisungen bei verschiedenen NLP-Aufgaben zu befolgen. |
| [ChatGLM2-6B](https://arxiv.org/abs/2103.10360) | Jun 2023 | 6 | [ChatGLM2-6B](https://huggingface.co/THUDM/chatglm2-6b) | ChatGLM2-6B ist die zweite Generation des quelloffenen zweisprachigen (Chinesisch-Englisch) Chat-Modells ChatGLM-6B. Es zeigt verbesserte Leistungen, längere Kontextfähigkeiten, effizientere Inferenz und eine offene Lizenz für akademische und kommerzielle Nutzung. Das Modell verwendet eine hybride Zielfunktion und wurde mit 1,4 Billionen zweisprachigen Tokens trainiert. Es zeigt erhebliche Verbesserungen in der Leistung auf verschiedenen Datensätzen im Vergleich zu seinem Vorgängermodell. |
| [Nous-Hermes-13B](https://huggingface.co/NousResearch/Nous-Hermes-13b) | Jun 2023 | 13 | [Nous-Hermes-13B](https://huggingface.co/NousResearch/Nous-Hermes-13b) | Nous-Hermes-13B ist ein von Nous Research feinabgestimmtes Sprachmodell mit über 300.000 Anweisungen. |
| [Baize-v2](https://arxiv.org/pdf/2304.01196.pdf) | May 2023 | 7, 13 | [Baize-v2-13B](https://huggingface.co/project-baize/baize-v2-13b) | Baize-v2 ist ein Open-Source-Chat-Modell, das von UCSD und Sun Yat-Sen University entwickelt wurde und mit LoRA feinabgestimmt sowie mit überwachtem Feinabstimmen (SFT) und Selbstdestillation mit Feedback (SDF) trainiert wurde. |
| [RWKV-4-Raven](https://arxiv.org/abs/2305.13048) | May 2023 | 1.5, 3, 7, 14 | [RWKV-4-Raven](https://huggingface.co/BlinkDL/rwkv-4-raven) | RWKV-4-Raven ist eine Serie von Modellen. Diese Modelle wurden auf verschiedenen Datensätzen wie Alpaca, CodeAlpaca, Guanaco, GPT4All und ShareGPT feinabgestimmt. Sie folgen einer zu 100 % RNN-Architektur für das Sprachmodell. |
| [Guanaco](https://arxiv.org/abs/2305.14314) | May 2023 | 7, 13, 33, 65 | [Guanaco-7B](https://huggingface.co/timdettmers/guanaco-7b), [Guanaco-13B](https://huggingface.co/timdettmers/guanaco-13b), [Guanaco-33B](https://huggingface.co/timdettmers/guanaco-33b) [Guanaco-65B](https://huggingface.co/timdettmers/guanaco-65b) | Guanaco-Modelle sind Open-Source-Chatbots, die durch 4-Bit-QLoRA-Tuning von LLaMA-Basismodellen auf dem OASST1-Datensatz feinabgestimmt wurden. Sie sind für Forschungszwecke vorgesehen. Die Modelle ermöglichen kostengünstige und lokale Experimente mit hochwertigen Chatbot-Systemen. |
| [PaLM 2](https://arxiv.org/abs/2305.10403) | May 2023 | - | - | Ein Sprachmodell, das bessere multilinguale und logische Fähigkeiten hat und recheneffizienter ist als sein Vorgänger PaLM. |
| [Gorilla](https://arxiv.org/abs/2305.15334v1) | May 2023 | 7 | [Gorilla](https://github.com/ShishirPatil/gorilla) | Gorilla: Großes Sprachmodell verbunden mit massiven APIs |
| [RedPajama-INCITE](https://www.together.xyz/blog/redpajama-models-v1) | May 2023 | 3, 7 | [RedPajama-INCITE](https://huggingface.co/togethercomputer) | Eine Modellfamilie, die Basis-, an Anweisungen angepasste und Chat-Modelle umfasst. |
| [LIMA](https://arxiv.org/abs/2305.11206v1) | May 2023 | 65 | - | Ein 65 Milliarden Parameter großes LLaMa-Sprachmodell, das mit dem standardmäßigen überwachten Verlust nur auf 1.000 sorgfältig kuratierten Prompts und Antworten feinabgestimmt wurde, ohne jegliches Reinforcement Learning oder Modellierung von menschlichen Präferenzen. |
| [Replit Code](https://huggingface.co/replit) | May 2023 | 3 | [Replit Code](https://huggingface.co/replit) | replit-code-v1-3b-Modell ist ein 2,7 Milliarden LLM, trainiert auf 20 Sprachen aus dem Stack Dedup v1.2-Datensatz. |
| [h2oGPT](https://arxiv.org/pdf/2306.08161.pdf) | May 2023 | 7, 12, 20, 40 | [h2oGPT](https://github.com/h2oai/h2ogpt) | h2oGPT ist ein LLM-Feinabstimmungs-Rahmenwerk und Chatbot-UI mit der Fähigkeit zur Dokumentenfrage-Antwort. |
| [CodeGen2](https://arxiv.org/abs/2305.02309) | May 2023 | 1, 3, 7, 16 | [CodeGen2](https://github.com/salesforce/codegen2) | Code-Modelle für die Programmsynthese. |
| [CodeT5 und CodeT5+](https://arxiv.org/abs/2305.07922) | May 2023 | 16 | [CodeT5](https://github.com/salesforce/codet5) | CodeT5 und CodeT5+-Modelle für Code-Verständnis und -Generierung von Salesforce Research. |
| [StarCoder](https://huggingface.co/blog/starcoder) | May 2023 | 15 | [StarCoder](https://huggingface.co/bigcode/starcoder) | StarCoder: Ein State-of-the-Art LLM für Code |
| [MPT](https://www.mosaicml.com/blog/mpt-7b) | May 2023 | 7, 30 | [MPT-7B](https://huggingface.co/mosaicml/mpt-7b), [MPT-30B](https://huggingface.co/mosaicml/mpt-30b) | MPT-Modelle von MosaicML sind quelloffene kommerziell lizenzierte Large Language Models, die optimierte KI-Lösungen für verschiedene NLP-Aufgaben bieten. |
| [DLite](https://medium.com/ai-squared/announcing-dlite-v2-lightweight-open-llms-that-can-run-anywhere-a852e5978c6e) | May 2023 | 0.124 - 1.5 | [DLite-v2-1.5B](https://huggingface.co/aisquared/dlite-v2-1_5b) | Leichtgewichtige modelle nach Anleitung, die Interaktivität im Stil von ChatGPT zeigen. |
| [WizardLM](https://arxiv.org/abs/2304.12244) | Apr. 2023 | 70, 30, 13 | [WizardLM-13B](https://huggingface.co/WizardLM/WizardLM-13B-V1.2), [WizardLM-30B](https://huggingface.co/WizardLM/WizardLM-30B-V1.0), [WizardLM-70B](https://huggingface.co/WizardLM/WizardLM-70B-V1.0) | WizardLM ist eine Familie von großen Sprachmodellen, die darauf ausgelegt sind, komplexe Anweisungen zu befolgen. Die Modelle leisten gute Arbeit in den Bereichen Programmierung, mathematisches Denken und offene Gespräche. Sie sind lizenzfreundlich und übernehmen ein Prompt-Format von Vicuna für mehrzügige Konversationen. Die Modelle wurden vom WizardLM-Team entwickelt und sind für verschiedene NLP-Aufgaben konzipiert. |
| [FastChat-T5-3B](https://arxiv.org/abs/2306.05685) | Apr. 2023 | 3 | [FastChat-T5-3B](https://huggingface.co/lmsys/fastchat-t5-3b-v1.0) | FastChat-T5 ist ein Open-Source-Chatbot, der durch Feinabstimmung von Flan-t5-xl (mit 3 Milliarden Parametern) auf von Benutzern geteilten Gesprächen, die von ShareGPT gesammelt wurden, trainiert wurde. Es basiert auf einer Encoder-Decoder-Transformer-Architektur und kann autoregressiv Antworten auf Eingaben der Benutzer generieren. |
| [GPT4All-13B-Snoozy](https://gpt4all.io/reports/GPT4All_Technical_Report_3.pdf) | Apr. 2023 | 13 | [GPT4All-13B-Snoozy](https://huggingface.co/nomic-ai/gpt4all-13b-snoozy) | GPT4All-13B-Snoozy ist ein GPL-lizenzierter Chatbot, der über ein massives, kuratiertes Korpus an Assistenteninteraktionen trainiert wurde, einschließlich Wortproblemen, mehrzügigem Dialog, Code, Gedichten, Liedern und Geschichten. Es wurde ausgehend von LLama 13B feinabgestimmt und ist von Nomic AI entwickelt worden. Das Modell ist für interaktive Assistentendaten ausgelegt und hauptsächlich auf Englisch. |
| [Koala-13B](https://bair.berkeley.edu/blog/2023/04/03/koala/) | Apr. 2023 | 13 | [Koala-13B](https://huggingface.co/young-geng/koala) | Koala-13B ist ein Chatbot, der von Berkeley AI Research (BAIR) erstellt wurde. Er wurde feinabgestimmt auf LLama von Meta und konzentriert sich auf Dialogdaten, die aus dem Web geschabt wurden. Das Modell zielt darauf ab, Leistung und Kosten auszugleichen, indem es eine leichtere, Open-Source-Alternative zu Modellen wie ChatGPT bietet. Es wurde auf Interaktionsdaten trainiert, die Gespräche mit hochfähigen, proprietären Modellen wie ChatGPT einschließen. |
| [OpenAssistant (Llama-Familie)](https://arxiv.org/abs/2304.07327) | Apr. 2023 | 30, 70 | [Llama2-30b-oasst](https://huggingface.co/OpenAssistant/oasst-sft-6-llama-30b-xor), [Llama2-70b-oasst](https://huggingface.co/OpenAssistant/llama2-70b-oasst-sft-v10) | OpenAssistant-LLaMA-Modelle sind Sprachmodelle aus der Arbeit von OpenAssistant an den Llama-Modellen. Sie unterstützen CPU + GPU-Inferenz mithilfe des GGML-Formats und zielen darauf ab, eine Open-Source-Alternative für Aufgaben zu bieten, bei denen Anweisungen befolgt werden müssen. |
| [Dolly](https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm) | Apr. 2023 | 3, 7, 12 | [Dolly-v2-3B](https://huggingface.co/databricks/dolly-v2-3b), [Dolly-v2-7B](https://huggingface.co/databricks/dolly-v2-7b), [Dolly-v2-12B](https://huggingface.co/databricks/dolly-v2-12b) | Ein anweisungsbefolgendes LLM, das von einem menschlich generierten Anweisungsdatensatz lizenziert für Forschung und kommerzielle Nutzung feinabgestimmt wurde. |
| [StableLM](https://stability.ai/blog/stability-ai-launches-the-first-of-its-stablelm-suite-of-language-models) | Apr. 2023 | 3, 7 | [StableLM-Alpha-3B](https://huggingface.co/stabilityai/stablelm-tuned-alpha-3b), [StableLM-Alpha-7B](https://huggingface.co/stabilityai/stablelm-tuned-alpha-7b) | Die Serie von Sprachmodellen StableLM von Stability AI |
| [Pythia](https://arxiv.org/abs/2304.01373) | Apr. 2023 | 0.070 - 12 | [Pythia](https://github.com/eleutherai/pythia) | Eine Suite von 16 LLMs, die alle anhand öffentlicher Daten trainiert wurden, die in exakter derselben Reihenfolge zu sehen sind und in der Größe von 70M bis 12B Parametern variieren. |
| [Open Assistant (Pythia-Familie)](https://open-assistant.io/) | März 2023 | 12 | [Open Assistant](https://huggingface.co/OpenAssistant) | OpenAssistant ist ein Chat-basierter Assistent, der Aufgaben versteht, mit Drittsystemen interagieren kann und dynamisch Informationen abrufen kann, um dies zu tun. |
| [Med-PaLM 2](https://arxiv.org/abs/2305.09617v1) | März 2023 | - | - | Auf dem Weg zu Experten-Ebene medizinisches Frage-Antworten mit großen Sprachmodellen |
| [ChatGLM-6B](https://chatglm.cn/blog) | März 2023 | 6 | [ChatGLM-6B](https://huggingface.co/THUDM/chatglm-6b) | ChatGLM-6B ist ein Open-Source, zweisprachiges (Chinesisch-Englisches) Dialogmodell auf Basis der General Language Model (GLM)-Architektur mit 6,2 Milliarden Parametern. Trotz seiner geringen Größe, die einige faktische oder mathematisch-logische Probleme verursacht, ist es geschickt für chinesische Frage-Antwort-Aufgaben, Zusammenfassungen und konversationelle Aufgaben aufgrund seines Trainings an über 1 Billion englischen und chinesischen Tokens. |
| [GPT-3.5-turbo](https://openai.com/blog/chatgpt) | März 2023 | 175 | - | GPT-3.5-Turbo ist OpenAIs fortgeschrittenes Sprachmodell, das für Chats optimiert ist, aber auch gut für traditionelle Vervollständigungsaufgaben funktioniert. Es bietet eine bessere Leistung in allen Aspekten im Vergleich zu GPT-3 und ist 10-mal kostengünstiger pro Token. |
| [Vicuna](https://lmsys.org/blog/2023-03-30-vicuna/) | März 2023 | 7, 13, 33 | [Vicuna-7B](https://huggingface.co/lmsys/vicuna-7b-v1.5), [Vicuna-13B](https://huggingface.co/lmsys/vicuna-13b-v1.5) | Vicuna ist eine Familie von autoregressiven Sprachmodellen, basierend auf der Transformer-Architektur. Sie wurden von LLaMA feinabgestimmt und sind hauptsächlich für Forschung an großen Sprachmodellen und Chatbots gedacht. Sie wurden von LMSYS entwickelt und haben eine nicht-kommerzielle Lizenz. |
| [Alpaca-13B](https://crfm.stanford.edu/2023/03/13/alpaca.html) | März 2023 | 13 | - | Alpaca ist ein anweisungsbefolgendes Sprachmodell, das von Meta's LLaMA 7B feinabgestimmt wurde. Es ist für akademische Forschung konzipiert, um Themen wie Fehlinformationen und Toxizität anzugehen. Alpaca wurde anhand von 52K anweisungsbefolgenden Demonstrationen trainiert und zielt darauf ab, eine zugänglichere Option für akademische Studien zu sein. Es ist aufgrund von Lizenz- und Sicherheitsbedenken nicht für kommerzielle Zwecke gedacht. |
| [Claude-1](https://www.anthropic.com/index/introducing-claude) | März 2023 | 137 | - | Claude ist ein grundlegendes großes Sprachmodell (LLM), das von Anthropic entwickelt wurde. Es soll als hilfreicher, ehrlicher und harmloser KI-Assistent dienen. Es kann eine Vielzahl von konversationellen und Textverarbeitungsaufgaben durchführen und ist über eine Chat-Schnittstelle und API zugänglich. |
| [Cerebras-GPT](https://arxiv.org/abs/2304.03208) | März 2023 | 0.111 - 13 | [Cerebras-GPT](https://huggingface.co/cerebras) | Cerebras-GPT: Offene Computer-optimierte Sprachmodelle, trainiert auf dem Cerebras Wafer-Scale-Cluster |
| [BloombergGPT](https://arxiv.org/abs/2303.17564v1)| März 2023 | 50 | - | BloombergGPT: Ein großes Sprachmodell für die Finanzbranche|
| [PanGu-Σ](https://arxiv.org/abs/2303.10845v1) | März 2023 | 1085 | - | PanGu-Σ: Hin zu einem Billion-Parameter-Sprachmodell mit sparsamer heterogener Berechnung |
| [GPT-4](https://arxiv.org/abs/2303.08774v3) | März 2023 | - | - | Technischer Bericht zu GPT-4 |
| [LLaMA](https://arxiv.org/abs/2302.13971v1) | Feb. 2023 | 7, 13, 33, 65 | [LLaMA](https://github.com/facebookresearch/llama) | LLaMA: Offene und effiziente Grundlagensprachmodelle |
| [ChatGPT](https://openai.com/blog/chatgpt) | Nov. 2022 | - | - | Ein Modell namens ChatGPT, das auf konversationelle Weise interagiert. Das Dialogformat ermöglicht es ChatGPT, Folgefragen zu beantworten, Fehler einzugestehen, falsche Prämissen in Frage zu stellen und unangemessene Anfragen abzulehnen. |
| [Galactica](https://arxiv.org/abs/2211.09085v1) | Nov. 2022 | 0.125 - 120 | [Galactica](https://huggingface.co/models?other=galactica) | Galactica: Ein großes Sprachmodell für die Wissenschaft |
| [mT0](https://arxiv.org/abs/2211.01786v1) | Nov. 2022 | 13 | [mT0-xxl](https://huggingface.co/bigscience/mt0-xxl) | Crosslinguale Generalisierung durch Multitask Feinabstimmung |
| [BLOOM](https://arxiv.org/abs/2211.05100v3) | Nov. 2022 | 176 | [BLOOM](https://huggingface.co/bigscience/bloom) | BLOOM: Ein 176-Milliarden-Parameter-Open-Access-Mehrsprachiges Sprachmodell |
| [U-PaLM](https://arxiv.org/abs/2210.11399v2) | Okt. 2022 | 540 | - | Überwindung von Skalierungsgesetzen mit 0,1% zusätzlicher Rechenleistung |
| [UL2](https://arxiv.org/abs/2205.05131v3) | Okt. 2022 | 20 | [UL2, Flan-UL2](https://github.com/google-research/google-research/tree/master/ul2#checkpoints) | UL2: Vereinigung von Sprachlernparadigmen |
| [Sparrow](https://arxiv.org/abs/2209.14375) | Sep. 2022 | 70 | - | Verbesserung der Ausrichtung von Dialogagenten über gezielte menschliche Beurteilungen |
| [Flan-T5](https://arxiv.org/abs/2210.11416v5) | Okt. 2022 | 11 | [Flan-T5-xxl](https://huggingface.co/google/flan-t5-xxl) | Skalierung von anweisungsfreinabgestimmten Sprachmodellen |
| [AlexaTM](https://arxiv.org/abs/2208.01448v2) | Aug. 2022 | 20 | - | AlexaTM 20B: Few-Shot-Lernen mit einem großangelegten, mehrsprachigen Seq2Seq-Modell |
| [GLM-130B](https://arxiv.org/abs/2210.02414v1) | Okt. 2022 | 130 | [GLM-130B](https://github.com/THUDM/GLM-130B) | GLM-130B: Ein offenes, zweisprachiges vortrainiertes Modell |
| [OPT-IML](https://arxiv.org/abs/2212.12017v3) | Dez. 2022 | 30, 175  | [OPT-IML](https://github.com/facebookresearch/metaseq/tree/main/projects/OPT-IML#pretrained-model-weights) | OPT-IML: Skalierung von Sprachmodell-Anweisungs-Metallernen durch die Linse der Generalisierung |
| [OPT](https://arxiv.org/abs/2205.01068) | Mai 2022 | 175 | [OPT-13B](https://huggingface.co/facebook/opt-13b), [OPT-66B](https://huggingface.co/facebook/opt-66b) | OPT: Open Pre-trained Transformer Sprachmodelle |
| [PaLM](https://arxiv.org/abs/2204.02311v5) | Apr. 2022| 540 | - | PaLM: Skalierung von Sprachmodellierung mit Pathways |
| [Tk-Instruct](https://arxiv.org/abs/2204.07705v3) | Apr. 2022 | 11 | [Tk-Instruct-11B](https://huggingface.co/allenai/tk-instruct-11b-def) | Super-NaturalInstructions: Generalisierung über deklarative Anweisungen zu 1600+ NLP-Aufgaben |
| [GPT-NeoX-20B](https://arxiv.org/abs/2204.06745v1) | Apr. 2022 | 20 | [GPT-NeoX-20B](https://huggingface.co/EleutherAI/gpt-neox-20b)  | GPT-NeoX-20B: Ein Open-Source-Autoregressives Sprachmodell |
| [Chinchilla](https://arxiv.org/abs/2203.15556) | März 2022 | 70 | - | Zeigt, dass die besten Ergebnisse bei einem Rechenbudget nicht von den größten Modellen, sondern von kleineren Modellen erzielt werden, die mit mehr Daten trainiert werden. |
| [InstructGPT](https://arxiv.org/abs/2203.02155v1) | März 2022 | 175 | - | Training von Sprachmodellen, um Anweisungen mit menschlichem Feedback zu befolgen |
| [CodeGen](https://arxiv.org/abs/2203.13474v5) | März 2022 | 0.350 - 16 | [CodeGen](https://huggingface.co/models?search=salesforce+codegen) | CodeGen: Ein offenes großes Sprachmodell für Code mit mehrstufiger Programmsynthese |
| [AlphaCode](https://arxiv.org/abs/2203.07814v1) | Feb. 2022 | 41 | - | Wettbewerbsfähige Codeerzeugung mit AlphaCode |
| [MT-NLG](https://arxiv.org/abs/2201.11990v3) | Jan 2022 | 530 | - | Verwendung von DeepSpeed und Megatron zur Schulung von Megatron-Turing NLG 530B, einem großflächigen generativen Sprachmodell |
| [LaMDA](https://arxiv.org/abs/2201.08239v3) | Jan 2022 | 137 | - | LaMDA: Sprachmodelle für Dialoganwendungen |
| [GLaM](https://arxiv.org/abs/2112.06905) | Dez 2021 | 1200 | - | GLaM: Effiziente Skalierung von Sprachmodellen mit Mixture-of-Experts |
| [Gopher](https://arxiv.org/abs/2112.11446v2) | Dez 2021 | 280 | - | Skalierung von Sprachmodellen: Methoden, Analyse & Einsichten aus dem Training von Gopher |
| [WebGPT](https://arxiv.org/abs/2112.09332v3) | Dez 2021 | 175 | - | WebGPT: Browsergestützte Frage-Antwort-Systeme mit menschlichem Feedback |
| [Yuan 1.0](https://arxiv.org/abs/2110.04725v2) | Okt 2021 | 245 | - | Yuan 1.0: Großflächiges vortrainiertes Sprachmodell im Zero-Shot- und Few-Shot-Learning |
| [T0](https://arxiv.org/abs/2110.08207) | Okt 2021 | 11 | [T0](https://huggingface.co/bigscience/T0) | Multitask Prompt-Anweisungen ermöglichen die Generalisierung von Aufgaben ohne Beispiele |
| [FLAN](https://arxiv.org/abs/2109.01652v5) | Sep 2021 | 137 | - | Feinabgestimmte Sprachmodelle sind Lerner ohne Beispiele |
| [HyperCLOVA](https://arxiv.org/abs/2109.04650) | Sep 2021 | 82 | - | Welche Veränderungen können großflächige Sprachmodelle mit sich bringen? Intensive Studie über HyperCLOVA: generative vortrainierte Transformer in koreanischer Sprache im Milliarden-Maßstab |
| [ERNIE 3.0 Titan](https://arxiv.org/abs/2112.12731v1) | Jul 2021 | 10 | - | ERNIE 3.0 Titan: Erforschung vortrainierter Sprachmodelle im größeren Maßstab mit Wissensverstärkung für das Sprachverständnis und die Generierung |
| [Jurassic-1](https://uploads-ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf) | Aug 2021 | 178 | - | Jurassic-1: Technische Details und Bewertung |
| [ERNIE 3.0](https://arxiv.org/abs/2107.02137v1) | Jul 2021 | 10 | - | ERNIE 3.0: Wissensgestütztes großflächiges Vortraining für Sprachverständnis und -generierung |
| [Codex](https://arxiv.org/abs/2107.03374v2) | Jul 2021 | 12 | - | Bewertung von großflächigen Sprachmodellen, die auf Code trainiert wurden |
| [GPT-J-6B](https://arankomatsuzaki.wordpress.com/2021/06/04/gpt-j/) | Jun 2021 | 6 | [GPT-J-6B](https://github.com/kingoflolz/mesh-transformer-jax/#gpt-j-6b) | Ein 6 Milliarden Parameter großes, autoregressives Textgenerierungsmodell, das auf The Pile trainiert wurde. |
| [CPM-2](https://arxiv.org/abs/2106.10715v3) | Jun 2021 | 198 | [CPM](https://github.com/TsinghuaAI/CPM) | CPM-2: Großflächige kosteneffektive vortrainierte Sprachmodelle |
| [PanGu-α](https://arxiv.org/abs/2104.12369v1) | Apr 2021 | 13 | [PanGu-α](https://gitee.com/mindspore/models/tree/master/official/nlp/Pangu_alpha#download-the-checkpoint) | PanGu-α: Großflächige autoregressive vortrainierte chinesische Sprachmodelle mit automatischer paralleler Berechnung |
| [mT5](https://arxiv.org/abs/2010.11934v3) | Okt 2020 | 13 | [mT5](https://github.com/google-research/multilingual-t5#released-model-checkpoints) | mT5: Ein massiv mehrsprachiges vortrainiertes Text-zu-Text-Transformationssystem |
| [BART](https://arxiv.org/abs/1910.13461) | Jul 2020 | - | [BART](https://github.com/facebookresearch/fairseq) | Lärmreduzierendes Sequenz-zu-Sequenz-Vortraining für natürliche Sprachgenerierung, Übersetzung und Verständnis |
| [GShard](https://arxiv.org/abs/2006.16668v1) | Jun 2020 | 600 | - | GShard: Skalierung riesiger Modelle mit bedingter Berechnung und automatischem Sharding |
| [GPT-3](https://arxiv.org/abs/2005.14165) | Mai 2020 | 175 | - | Sprachmodelle sind Lerner mit wenigen Beispielen |
| [CTRL](https://arxiv.org/abs/1909.05858) | Sep 2019 | 1.63 | [CTRL](https://github.com/salesforce/ctrl) | CTRL: Ein bedingtes Transformer-Sprachmodell zur kontrollierbaren Generierung |
| [ALBERT](https://arxiv.org/abs/1909.11942) | Sep 2019 | 0.235 | [ALBERT](https://github.com/google-research/ALBERT) | ALBERT: Ein Lite BERT für die selbstüberwachte Lernung von Sprachdarstellungen |
| [XLNet](https://arxiv.org/abs/1906.08237) | Jun 2019 | - | [XLNet](https://github.com/zihangdai/xlnet#released-models) | Generalisiertes autoregressives Vortraining für Sprachverständnis und -generierung |
| [T5](https://arxiv.org/abs/1910.10683) | Okt 2019 | 0.06 - 11 | [Flan-T5](https://github.com/google-research/t5x/blob/main/docs/models.md#flan-t5-checkpoints) | Erforschung der Grenzen von Transferlernen mit einem einheitlichen Text-zu-Text-Transformer |
| [GPT-2](https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf) | Nov 2019 | 1.5 | [GPT-2](https://github.com/openai/gpt-2) | Sprachmodelle sind unbeaufsichtigte Multitask-Lerner |
| [RoBERTa](https://arxiv.org/abs/1907.11692) | Jul 2019 | 0.125 - 0.355 | [RoBERTa](https://github.com/facebookresearch/fairseq/tree/main/examples/roberta) | Ein robust optimierter BERT-Vortrainingsansatz |
| [BERT](https://arxiv.org/abs/1810.04805)| Okt 2018 | - | [BERT](https://github.com/google-research/bert) | Bidirektionale Encoder-Darstellungen aus Transformers |
| [GPT](https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf) | Jun 2018 | - | [GPT](https://github.com/openai/finetune-transformer-lm) | Verbesserung des Sprachverständnisses durch generatives Vortraining |

<Callout emoji="⚠️">
  Dieser Abschnitt befindet sich in Entwicklung.
</Callout>

Daten übernommen von [Papers with Code](https://paperswithcode.com/methods/category/language-models) und der jüngsten Arbeit von [Zhao et al. (2023)](https://arxiv.org/pdf/2303.18223.pdf).