mirror of
https://github.com/dair-ai/Prompt-Engineering-Guide
synced 2024-11-18 03:25:39 +00:00
39 lines
2.3 KiB
Plaintext
39 lines
2.3 KiB
Plaintext
## LLaMA: Models de llenguatge base oberts i eficients
|
|
|
|
<Callout emoji="⚠️">
|
|
Aquesta secció està en desenvolupament intensiu.
|
|
</Callout>
|
|
|
|
import {Screenshot} from 'components/screenshot'
|
|
import { Callout, FileTree } from 'nextra-theme-docs'
|
|
import LLAMA1 from '../../img/llama-1.png'
|
|
|
|
## Què hi ha de nou?
|
|
|
|
Aquest article presenta una col·lecció de models de llenguatge base que oscil·len entre 7B i 65B de paràmetres.
|
|
|
|
Els models s'entrenen en bilions de tokens amb conjunts de dades públicament disponibles.
|
|
|
|
El treball de [(Hoffman et al. 2022)](https://arxiv.org/abs/2203.15556) mostra que, donat un pressupost de càlcul més petit, els models més petits entrenats en moltes més dades poden assolir un rendiment millor que els seus homòlegs més grans. Aquest treball recomana entrenar models de 10B en 200B de tokens. No obstant això, el document de LLaMA troba que el rendiment d'un model de 7B continua millorant fins i tot després de 1T de tokens.
|
|
|
|
<Screenshot src={LLAMA1} alt="LLAMA1" />
|
|
|
|
Aquest treball se centra en entrenar models (LLaMA) que obtinguin el millor rendiment possible en diversos pressupostos d'inferència, entrenant-se en més tokens.
|
|
|
|
## Capacitats i resultats clau
|
|
|
|
En general, LLaMA-13B supera GPT-3(175B) en molts indicadors de referència, tot i ser 10 vegades més petit i possible d'executar-se en una única GPU. LLaMA 65B és competitiu amb models com Chinchilla-70B i PaLM-540B.
|
|
|
|
*Article:* [LLaMA: Open and Efficient Foundation Language Models](https://arxiv.org/abs/2302.13971)
|
|
|
|
*Codi:* https://github.com/facebookresearch/llama
|
|
|
|
## Referències
|
|
|
|
- [Koala: A Dialogue Model for Academic Research](https://bair.berkeley.edu/blog/2023/04/03/koala/) (Abril 2023)
|
|
- [Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data](https://arxiv.org/abs/2304.01196) (Abril 2023)
|
|
- [Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality](https://vicuna.lmsys.org/) (Març 2023)
|
|
- [LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention](https://arxiv.org/abs/2303.16199) (Març 2023)
|
|
- [GPT4All](https://github.com/nomic-ai/gpt4all) (Març 2023)
|
|
- [ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge](https://arxiv.org/abs/2303.14070) (Març 2023)
|
|
- [Stanford Alpaca](https://github.com/tatsu-lab/stanford_alpaca) (Març 2023) |