# 모델 선택

import { Callout, FileTree } from 'nextra-theme-docs'

<Callout emoji="⚠️">
  이 섹션은 현재 개발중에 있습니다.
</Callout>

이 섹션은 중요하고 기초적인 LLM들의 모음과 요약으로 구성되어 있습니다. (데이터는 [Papers with Code](https://paperswithcode.com/methods/category/language-models)와 [Zhao et al. (2023)](https://arxiv.org/pdf/2303.18223.pdf)로부터 수집하였습니다.)

## 모델


| 모델 | 공개 일자 | 설명 | 
| --- | --- | --- | 
| [BERT](https://arxiv.org/abs/1810.04805)| 2018 | 양방향 인코더 트랜스포머를 이용한 표현 | 
| [GPT](https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf) | 2018 | 생성적 사전 훈련을 통한 언어 이해 개선 | 
| [RoBERTa](https://arxiv.org/abs/1907.11692) | 2019 | 고도로 최적화된 BERT 사전 훈련 접근 방법 | 
| [GPT-2](https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf) | 2019 | 자율 학습을 통한 다중 작업 학습 모델 | 
| [T5](https://arxiv.org/abs/1910.10683) | 2019 | 통합된 글을 글로 전이하는 트랜스포머를 이용한 전이 학습의 한계 탐색 | 
| [BART](https://arxiv.org/abs/1910.13461) | 2019 | 자연어 생성, 번역 및 이해를 위한 시퀀스-투-시퀀스 전처리에 기반한 노이즈 제거 모델 |
| [ALBERT](https://arxiv.org/abs/1909.11942) |2019 | 언어 표현의 자기지도 학습을 위한 경량화된 BERT | 
| [XLNet](https://arxiv.org/abs/1906.08237) | 2019 | 언어 이해와 생성을 위한 일반화된 자기회귀 사전훈련 |
| [CTRL](https://arxiv.org/abs/1909.05858) |2019 | CTRL: 조건부 생성을 위한 제어 가능한 트랜스포머 언어모델 | 
| [ERNIE](https://arxiv.org/abs/1904.09223v1) | 2019| ERNIE: 지식 통합을 통해 향상된 표현 모델 |
| [GShard](https://arxiv.org/abs/2006.16668v1) | 2020 | GShard: 조건부 계산과 자동 분할을 이용하여 거대한 모델을 확장하는 방법 |
| [GPT-3](https://arxiv.org/abs/2005.14165) | 2020 | 몇 개의 학습만으로도 학습이 가능한 언어 모델 |
| [LaMDA](https://arxiv.org/abs/2201.08239v3) | 2021 | LaMDA: 대화 어플리케이션을 위한 언어 모델 | 
| [PanGu-α](https://arxiv.org/abs/2104.12369v1) | 2021 | PanGu-α: 자동병렬계산 기능이 포함된 대규모 중국어 언어 모델 |
| [mT5](https://arxiv.org/abs/2010.11934v3) | 2021 | mT5: 대규모 다국어 사전 학습을 위한 텍스트-투-텍스트 트랜스포머 모델 |
| [CPM-2](https://arxiv.org/abs/2106.10715v3) | 2021 | CPM-2: 대규모 경제적 사전학습 언어 모델 |
| [T0](https://arxiv.org/abs/2110.08207) |2021 |다중 작업 프롬프트 학습으로 인해 제로샷(Zero-shot) 작업 일반화가 가능해진다 |
| [HyperCLOVA](https://arxiv.org/abs/2109.04650) | 2021 | 대규모 언어 모델이 어떤 변화를 가져올까? HyperCLOVA: 수십억 개의 파라미터로 구성된 한국어 생성 사전 훈련 트랜스포머에 대한 깊이 있는 분석 |
| [Codex](https://arxiv.org/abs/2107.03374v2) |2021 |코드로 훈련된 대규모 언어 모델의 평가 |
| [ERNIE 3.0](https://arxiv.org/abs/2107.02137v1) | 2021 | ERNIE 3.0: 대규모 지식 강화 사전 훈련을 통한 언어 이해와 생성|
| [Jurassic-1](https://uploads-ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf) | 2021 | Jurassic-1: 기술적 세부사항과 평가 |
| [FLAN](https://arxiv.org/abs/2109.01652v5) | 2021 | 세밀하게 조정된 언어 모델은 제로샷(Zero-Shot) 학습자들이다 |
| [MT-NLG](https://arxiv.org/abs/2201.11990v3) | 2021 | DeepSpeed 와 Megatron을 사용하여 Megatron-Turing NLG 530B, 대규모 생성 언어 모델을 학습하는 방법|
| [Yuan 1.0](https://arxiv.org/abs/2110.04725v2) | 2021| Yuan 1.0: Zero-Shot과 Few-Shot 학습에서 대규모 사전 훈련된 언어 모델 |
| [WebGPT](https://arxiv.org/abs/2112.09332v3) | 2021 | WebGPT: 브라우저를 이용한 질문응답 시스템에 인간 피드백을 통한 개선 |
| [Gopher](https://arxiv.org/abs/2112.11446v2) |2021 | 언어 모델 확장 : Gopher를 통한 방법, 분석 및 통찰 |
| [ERNIE 3.0 Titan](https://arxiv.org/abs/2112.12731v1) |2021 | ERNIE 3.0 Titan: 언어 이해와 생성을 위한 더 큰 규모의 지식 강화 사전 훈련 탐구 |
| [GLaM](https://arxiv.org/abs/2112.06905) | 2021 | GLaM: 전문가 혼합을 활용한 언어 모델의 효율적인 확장 |
| [InstructGPT](https://arxiv.org/abs/2203.02155v1) | 2022 | 인간의 피드백을 이용하여 언어 모델에게 지시 사항을 따르도록 훈련 |
| [GPT-NeoX-20B](https://arxiv.org/abs/2204.06745v1) | 2022 | GPT-NeoX-20B: 오픈소스 자기회귀 언어 모델 |
| [AlphaCode](https://arxiv.org/abs/2203.07814v1) | 2022 | AlphaCode를 사용한 대회 수준의 코드 생성 |
| [CodeGen](https://arxiv.org/abs/2203.13474v5) | 2022 | CodeGen: 다중 턴 프로그램 합성 코드를 위한 오픈 소스 대형 언어 모델 |
| [Chinchilla](https://arxiv.org/abs/2203.15556) | 2022 | 예산 계산에 따르면, 최상의 성능은 가장 큰 모델보다 더 많은 데이터로 학습된 작은 모델에 의해 달성됨을 보여줍니다 |
| [Tk-Instruct](https://arxiv.org/abs/2204.07705v3) | 2022 | Super-NaturalInstructions: 1600개 이상의 NLP Tasks에서 선언적 지시를 통한 일반화 |
| [UL2](https://arxiv.org/abs/2205.05131v3) | 2022 | UL2: 언어 학습 패러다임 통합 |
| [PaLM](https://arxiv.org/abs/2204.02311v5) |2022| PaLM: 통로를 통해 언어 모델 확장 |
| [OPT](https://arxiv.org/abs/2205.01068) | 2022 | OPT: 오픈 사전으로 학습된 트랜스포머 언어 모델 |
| [BLOOM](https://arxiv.org/abs/2211.05100v3) | 2022 | BLOOM: 176억 파라미터의 오픈 액세스 다국어 언어 모델 |
| [GLM-130B](https://arxiv.org/abs/2210.02414v1) | 2022 | GLM-130B: 오픈 양방언 사전 학습 모델 |
| [AlexaTM](https://arxiv.org/abs/2208.01448v2) | 2022 | AlexaTM 20B: 대규모 다국어 Seq2Seq 모델을 이용한 Few-Shot 학습 |
| [Flan-T5](https://arxiv.org/abs/2210.11416v5) | 2022 | Instruction-Finetuned 언어 모델의 확장 |
| [Sparrow](https://arxiv.org/abs/2209.14375) | 2022 | 대회 에이전트의 정렬을 개선하기 위한 목표 지향적인 인간의 판단 |
| [U-PaLM](https://arxiv.org/abs/2210.11399v2) | 2022 | 0.1% 추가 컴퓨팅으로 스케일링 법칙 극복하기 |
| [mT0](https://arxiv.org/abs/2211.01786v1) | 2022 | 다국어 일반화를 위한 멀티태스크 파인튜닝 |
| [Galactica](https://arxiv.org/abs/2211.09085v1) | 2022 | Galactica: 과학을 위한 대규모 언어 모델 |
| [OPT-IML](https://arxiv.org/abs/2212.12017v3) | 2022 | OPT-IML: 언어 모델 지시 메타 학습의 일반화를 개선하는 방법으로 규모를 확장  |
| [LLaMA](https://arxiv.org/abs/2302.13971v1) | 2023 | LLaMA: 개방적이고 효율적인 기반의 언어 모델 |
| [GPT-4](https://arxiv.org/abs/2303.08774v3) | 2023 |GPT-4 기술 보고서 |
| [PanGu-Σ](https://arxiv.org/abs/2303.10845v1) | 2023 | PanGu-Σ: 조문 파라미터 언어 모델의 트릴리온 파라미터 도달을 위한 희소 이질적 컴퓨팅 방법  |
| [BloombergGPT](https://arxiv.org/abs/2303.17564v1)| 2023 |BloombergGPT:금융분야를 위한 대규모 언어 모델|
| [Cerebras-GPT](https://arxiv.org/abs/2304.03208) | 2023 | Cerebras-GPT: Wafer-Scale Cluster에서 훈련된 오픈 컴퓨트 최적화 언어 모델 |
| [PaLM 2](https://ai.google/static/documents/palm2techreport.pdf) | 2023 | PaLM보다 더 나은 다국어 및 추론 능력을 갖추며, 계산 효율성이 뛰어난 언어 모델 |