mirror of
https://github.com/dair-ai/Prompt-Engineering-Guide
synced 2024-11-08 07:10:41 +00:00
43 lines
2.4 KiB
Plaintext
43 lines
2.4 KiB
Plaintext
## LLaMA: Açık ve Verimli Temel Dil Modelleri
|
||
|
||
<Callout emoji="⚠️">
|
||
Bu bölüm yoğun geliştirme aşamasındadır.
|
||
</Callout>
|
||
|
||
|
||
import {Screenshot} from 'components/screenshot'
|
||
import { Callout, FileTree } from 'nextra-theme-docs'
|
||
import LLAMA1 from '../../img/llama-1.png'
|
||
|
||
|
||
## Yenilikler Neler?
|
||
|
||
Bu makale, 7B ila 65B parametreleri arasında değişen temel dil modelleri koleksiyonunu tanıtmaktadır.
|
||
|
||
Modeller, halka açık veri kümeleriyle trilyonlarca jeton üzerinde eğitilmiştir.
|
||
|
||
[(Hoffman ve diğerleri 2022)](https://arxiv.org/abs/2203.15556) tarafından yapılan çalışma, çok daha fazla veriyle eğitilen daha küçük modellerin, daha büyük benzerlerine göre daha iyi performans elde edebildiğini göstermektedir.Bu çalışma, 10B modellerinin 200B belirteçleri üzerinde eğitilmesini önerir. Bununla birlikte, LLaMA makalesi, bir 7B modelinin performansının 1T belirteçlerinden sonra bile gelişmeye devam ettiğini ortaya koymaktadır.
|
||
|
||
<Screenshot src={LLAMA1} alt="LLAMA1" />
|
||
|
||
Bu çalışma, daha fazla belirteç üzerinde eğitim alarak çeşitli çıkarım bütçelerinde mümkün olan en iyi performansı elde eden eğitim modellerine (LLaMA) odaklanmaktadır.
|
||
|
||
|
||
## Yetenekler ve Önemli Sonuçlar
|
||
|
||
Genel olarak LLaMA-13B, 10 kat daha küçük olmasına ve tek bir GPU çalıştırmanın mümkün olmasına rağmen birçok karşılaştırmada GPT-3(175B)'den daha iyi performans gösteriyor. LLaMA 65B, Chinchilla-70B ve PaLM-540B gibi modellerle rekabet halindedir.
|
||
|
||
|
||
*Makale:* [LLaMA: Open and Efficient Foundation Language Models](https://arxiv.org/abs/2302.13971)
|
||
|
||
*Kod:* https://github.com/facebookresearch/llama
|
||
|
||
## Referanslar
|
||
|
||
- [Koala: A Dialogue Model for Academic Research](https://bair.berkeley.edu/blog/2023/04/03/koala/) (April 2023)
|
||
- [Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data](https://arxiv.org/abs/2304.01196) (April 2023)
|
||
- [Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality](https://vicuna.lmsys.org/) (March 2023)
|
||
- [LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention](https://arxiv.org/abs/2303.16199) (March 2023)
|
||
- [GPT4All](https://github.com/nomic-ai/gpt4all) (March 2023)
|
||
- [ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge](https://arxiv.org/abs/2303.14070) (March 2023)
|
||
- [Stanford Alpaca](https://github.com/tatsu-lab/stanford_alpaca) (March 2023) |