mirror of
https://github.com/dair-ai/Prompt-Engineering-Guide
synced 2024-11-18 03:25:39 +00:00
43 lines
2.4 KiB
Plaintext
43 lines
2.4 KiB
Plaintext
## LLaMA: Open and Efficient Foundation Language Models
|
|
|
|
<Callout emoji="⚠️">
|
|
Tämä osa sivustoa kehittyy jatkuvasti.
|
|
</Callout>
|
|
|
|
|
|
import {Screenshot} from 'components/screenshot'
|
|
import { Callout, FileTree } from 'nextra-theme-docs'
|
|
import LLAMA1 from '../../img/llama-1.png'
|
|
|
|
|
|
## What's new?
|
|
|
|
Tämä julkaisu esittelee kokoelman peruskielimalleja, joiden koko vaihtelee 7 miljardista 65 miljardiin parametriin.
|
|
|
|
Mallit on koulutettu biljoonilla tokeneilla julkisesti saatavilla olevista tietojoukoista.
|
|
|
|
[(Hoffman ym. 2022)](https://arxiv.org/abs/2203.15556) artikkelissa todetaan, että pienemmät kielimallit voivat saavuttaa paremman suorituskyvyn suuriin kielimalleihin verrattuna, kun pienemmälle kielimallille annetaan enemmän dataa, ja jos laskentaan käytettävä budjetti on rajallinen. Tämä tutkimus suosittelee 10B mallien kouluttamista 200B: tokenin datalla. LLaMA-julkaisussa havaitaan, että 7B mallin suorituskyky paranee edelleen jopa 1T (biljoonan) tokenin jälkeen.
|
|
|
|
<Screenshot src={LLAMA1} alt="LLAMA1" />
|
|
|
|
Tässä artikkelissa keskitytään LLaMA mallien kouluttamiseen, jotka saavuttavat parhaan mahdollisen suorituskyvyn ottaen huomioon erilaiset budjettirajoitteet, käyttämällä suurempaa määrää koulutustokeneja.
|
|
|
|
|
|
## Kyvykkyydet ja keskeiset tulokset
|
|
|
|
Kaiken kaikkiaan LLaMA-13B suoriutuu GPT-3:a (175B) paremmin monissa vertailukohteista vaikka se on 10 kertaa pienempi ja mahdollista ajaa yhdellä GPU:lla. LLaMA 65B on kilpailukykyinen verrattuna malleihin kuten Chinchilla-70B ja PaLM-540B.
|
|
|
|
|
|
*Julkaisu:* [LLaMA: Open and Efficient Foundation Language Models](https://arxiv.org/abs/2302.13971)
|
|
|
|
*Koodi:* https://github.com/facebookresearch/llama
|
|
|
|
## Viitteet
|
|
|
|
- [Koala: A Dialogue Model for Academic Research](https://bair.berkeley.edu/blog/2023/04/03/koala/) (April 2023)
|
|
- [Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data](https://arxiv.org/abs/2304.01196) (April 2023)
|
|
- [Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality](https://vicuna.lmsys.org/) (March 2023)
|
|
- [LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention](https://arxiv.org/abs/2303.16199) (March 2023)
|
|
- [GPT4All](https://github.com/nomic-ai/gpt4all) (March 2023)
|
|
- [ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge](https://arxiv.org/abs/2303.14070) (March 2023)
|
|
- [Stanford Alpaca](https://github.com/tatsu-lab/stanford_alpaca) (March 2023) |