mirror of
https://github.com/dair-ai/Prompt-Engineering-Guide
synced 2024-11-06 09:20:31 +00:00
43 lines
2.3 KiB
Plaintext
43 lines
2.3 KiB
Plaintext
## LLaMA: Open and Efficient Foundation Language Models
|
|
|
|
<Callout emoji="⚠️">
|
|
Esta sección está en pleno desarrollo.
|
|
</Callout>
|
|
|
|
|
|
import {Screenshot} from 'components/screenshot'
|
|
import { Callout, FileTree } from 'nextra-theme-docs'
|
|
import LLAMA1 from '../../img/llama-1.png'
|
|
|
|
|
|
## ¿Qué hay de nuevo?
|
|
|
|
Este paper presenta una colección de modelos de lenguaje fundamentales que van desde 7B hasta 65B de parámetros.
|
|
|
|
Los modelos están entrenados con trillones de tokens con conjuntos de datos disponibles públicamente.
|
|
|
|
El trabajo de [(Hoffman et al. 2022)](https://arxiv.org/abs/2203.15556) muestra que, dado un presupuesto de computación, los modelos más pequeños entrenados con mucha más datos pueden lograr un mejor rendimiento que los modelos más grandes. Este trabajo recomienda entrenar modelos de 10B con 200B tokens. Sin embargo, el artículo de LLaMA encuentra que el rendimiento de un modelo de 7B sigue mejorando incluso después de 1T de tokens.
|
|
|
|
<Screenshot src={LLAMA1} alt="LLAMA1" />
|
|
|
|
Este trabajo se centra en entrenar modelos (LLaMA) que logren el mejor rendimiento posible en varios presupuestos de inferencia, mediante el entrenamiento de más tokens.
|
|
|
|
|
|
## Capacidades y resultados clave
|
|
|
|
En general, LLaMA-13B supera a GPT-3(175B) en muchos puntos de referencia a pesar de ser 10 veces más pequeño y posible de ejecutar en una sola GPU. LLaMA 65B es competitivo con modelos como Chinchilla-70B y PaLM-540B.
|
|
|
|
*Paper:* [LLaMA: Open and Efficient Foundation Language Models](https://arxiv.org/abs/2302.13971)
|
|
|
|
*Code:* https://github.com/facebookresearch/llama
|
|
|
|
## Referencias
|
|
|
|
- [Koala: A Dialogue Model for Academic Research](https://bair.berkeley.edu/blog/2023/04/03/koala/) (April 2023)
|
|
- [Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data](https://arxiv.org/abs/2304.01196) (April 2023)
|
|
- [Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality](https://vicuna.lmsys.org/) (March 2023)
|
|
- [LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention](https://arxiv.org/abs/2303.16199) (March 2023)
|
|
- [GPT4All](https://github.com/nomic-ai/gpt4all) (March 2023)
|
|
- [ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge](https://arxiv.org/abs/2303.14070) (March 2023)
|
|
- [Stanford Alpaca](https://github.com/tatsu-lab/stanford_alpaca) (March 2023)
|