Prompt-Engineering-Guide/pages/models/collection.kr.mdx

67 lines
7.6 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 모델 선택
import { Callout, FileTree } from 'nextra-theme-docs'
<Callout emoji="⚠️">
이 섹션은 현재 개발중에 있습니다.
</Callout>
이 섹션은 중요하고 기초적인 LLM들의 모음과 요약으로 구성되어 있습니다. (데이터는 [Papers with Code](https://paperswithcode.com/methods/category/language-models)와 [Zhao et al. (2023)](https://arxiv.org/pdf/2303.18223.pdf)로부터 수집하였습니다.)
## 모델
| 모델 | 공개 일자 | 설명 |
| --- | --- | --- |
| [BERT](https://arxiv.org/abs/1810.04805)| 2018 | 양방향 인코더 트랜스포머를 이용한 표현 |
| [GPT](https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf) | 2018 | 생성적 사전 훈련을 통한 언어 이해 개선 |
| [RoBERTa](https://arxiv.org/abs/1907.11692) | 2019 | 고도로 최적화된 BERT 사전 훈련 접근 방법 |
| [GPT-2](https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf) | 2019 | 자율 학습을 통한 다중 작업 학습 모델 |
| [T5](https://arxiv.org/abs/1910.10683) | 2019 | 통합된 글을 글로 전이하는 트랜스포머를 이용한 전이 학습의 한계 탐색 |
| [BART](https://arxiv.org/abs/1910.13461) | 2019 | 자연어 생성, 번역 및 이해를 위한 시퀀스-투-시퀀스 전처리에 기반한 노이즈 제거 모델 |
| [ALBERT](https://arxiv.org/abs/1909.11942) |2019 | 언어 표현의 자기지도 학습을 위한 경량화된 BERT |
| [XLNet](https://arxiv.org/abs/1906.08237) | 2019 | 언어 이해와 생성을 위한 일반화된 자기회귀 사전훈련 |
| [CTRL](https://arxiv.org/abs/1909.05858) |2019 | CTRL: 조건부 생성을 위한 제어 가능한 트랜스포머 언어모델 |
| [ERNIE](https://arxiv.org/abs/1904.09223v1) | 2019| ERNIE: 지식 통합을 통해 향상된 표현 모델 |
| [GShard](https://arxiv.org/abs/2006.16668v1) | 2020 | GShard: 조건부 계산과 자동 분할을 이용하여 거대한 모델을 확장하는 방법 |
| [GPT-3](https://arxiv.org/abs/2005.14165) | 2020 | 몇 개의 학습만으로도 학습이 가능한 언어 모델 |
| [LaMDA](https://arxiv.org/abs/2201.08239v3) | 2021 | LaMDA: 대화 어플리케이션을 위한 언어 모델 |
| [PanGu-α](https://arxiv.org/abs/2104.12369v1) | 2021 | PanGu-α: 자동병렬계산 기능이 포함된 대규모 중국어 언어 모델 |
| [mT5](https://arxiv.org/abs/2010.11934v3) | 2021 | mT5: 대규모 다국어 사전 학습을 위한 텍스트-투-텍스트 트랜스포머 모델 |
| [CPM-2](https://arxiv.org/abs/2106.10715v3) | 2021 | CPM-2: 대규모 경제적 사전학습 언어 모델 |
| [T0](https://arxiv.org/abs/2110.08207) |2021 |다중 작업 프롬프트 학습으로 인해 제로샷(Zero-shot) 작업 일반화가 가능해진다 |
| [HyperCLOVA](https://arxiv.org/abs/2109.04650) | 2021 | 대규모 언어 모델이 어떤 변화를 가져올까? HyperCLOVA: 수십억 개의 파라미터로 구성된 한국어 생성 사전 훈련 트랜스포머에 대한 깊이 있는 분석 |
| [Codex](https://arxiv.org/abs/2107.03374v2) |2021 |코드로 훈련된 대규모 언어 모델의 평가 |
| [ERNIE 3.0](https://arxiv.org/abs/2107.02137v1) | 2021 | ERNIE 3.0: 대규모 지식 강화 사전 훈련을 통한 언어 이해와 생성|
| [Jurassic-1](https://uploads-ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf) | 2021 | Jurassic-1: 기술적 세부사항과 평가 |
| [FLAN](https://arxiv.org/abs/2109.01652v5) | 2021 | 세밀하게 조정된 언어 모델은 제로샷(Zero-Shot) 학습자들이다 |
| [MT-NLG](https://arxiv.org/abs/2201.11990v3) | 2021 | DeepSpeed 와 Megatron을 사용하여 Megatron-Turing NLG 530B, 대규모 생성 언어 모델을 학습하는 방법|
| [Yuan 1.0](https://arxiv.org/abs/2110.04725v2) | 2021| Yuan 1.0: Zero-Shot과 Few-Shot 학습에서 대규모 사전 훈련된 언어 모델 |
| [WebGPT](https://arxiv.org/abs/2112.09332v3) | 2021 | WebGPT: 브라우저를 이용한 질문응답 시스템에 인간 피드백을 통한 개선 |
| [Gopher](https://arxiv.org/abs/2112.11446v2) |2021 | 언어 모델 확장 : Gopher를 통한 방법, 분석 및 통찰 |
| [ERNIE 3.0 Titan](https://arxiv.org/abs/2112.12731v1) |2021 | ERNIE 3.0 Titan: 언어 이해와 생성을 위한 더 큰 규모의 지식 강화 사전 훈련 탐구 |
| [GLaM](https://arxiv.org/abs/2112.06905) | 2021 | GLaM: 전문가 혼합을 활용한 언어 모델의 효율적인 확장 |
| [InstructGPT](https://arxiv.org/abs/2203.02155v1) | 2022 | 인간의 피드백을 이용하여 언어 모델에게 지시 사항을 따르도록 훈련 |
| [GPT-NeoX-20B](https://arxiv.org/abs/2204.06745v1) | 2022 | GPT-NeoX-20B: 오픈소스 자기회귀 언어 모델 |
| [AlphaCode](https://arxiv.org/abs/2203.07814v1) | 2022 | AlphaCode를 사용한 대회 수준의 코드 생성 |
| [CodeGen](https://arxiv.org/abs/2203.13474v5) | 2022 | CodeGen: 다중 턴 프로그램 합성 코드를 위한 오픈 소스 대형 언어 모델 |
| [Chinchilla](https://arxiv.org/abs/2203.15556) | 2022 | 예산 계산에 따르면, 최상의 성능은 가장 큰 모델보다 더 많은 데이터로 학습된 작은 모델에 의해 달성됨을 보여줍니다 |
| [Tk-Instruct](https://arxiv.org/abs/2204.07705v3) | 2022 | Super-NaturalInstructions: 1600개 이상의 NLP Tasks에서 선언적 지시를 통한 일반화 |
| [UL2](https://arxiv.org/abs/2205.05131v3) | 2022 | UL2: 언어 학습 패러다임 통합 |
| [PaLM](https://arxiv.org/abs/2204.02311v5) |2022| PaLM: 통로를 통해 언어 모델 확장 |
| [OPT](https://arxiv.org/abs/2205.01068) | 2022 | OPT: 오픈 사전으로 학습된 트랜스포머 언어 모델 |
| [BLOOM](https://arxiv.org/abs/2211.05100v3) | 2022 | BLOOM: 176억 파라미터의 오픈 액세스 다국어 언어 모델 |
| [GLM-130B](https://arxiv.org/abs/2210.02414v1) | 2022 | GLM-130B: 오픈 양방언 사전 학습 모델 |
| [AlexaTM](https://arxiv.org/abs/2208.01448v2) | 2022 | AlexaTM 20B: 대규모 다국어 Seq2Seq 모델을 이용한 Few-Shot 학습 |
| [Flan-T5](https://arxiv.org/abs/2210.11416v5) | 2022 | Instruction-Finetuned 언어 모델의 확장 |
| [Sparrow](https://arxiv.org/abs/2209.14375) | 2022 | 대회 에이전트의 정렬을 개선하기 위한 목표 지향적인 인간의 판단 |
| [U-PaLM](https://arxiv.org/abs/2210.11399v2) | 2022 | 0.1% 추가 컴퓨팅으로 스케일링 법칙 극복하기 |
| [mT0](https://arxiv.org/abs/2211.01786v1) | 2022 | 다국어 일반화를 위한 멀티태스크 파인튜닝 |
| [Galactica](https://arxiv.org/abs/2211.09085v1) | 2022 | Galactica: 과학을 위한 대규모 언어 모델 |
| [OPT-IML](https://arxiv.org/abs/2212.12017v3) | 2022 | OPT-IML: 언어 모델 지시 메타 학습의 일반화를 개선하는 방법으로 규모를 확장 |
| [LLaMA](https://arxiv.org/abs/2302.13971v1) | 2023 | LLaMA: 개방적이고 효율적인 기반의 언어 모델 |
| [GPT-4](https://arxiv.org/abs/2303.08774v3) | 2023 |GPT-4 기술 보고서 |
| [PanGu-Σ](https://arxiv.org/abs/2303.10845v1) | 2023 | PanGu-Σ: 조문 파라미터 언어 모델의 트릴리온 파라미터 도달을 위한 희소 이질적 컴퓨팅 방법 |
| [BloombergGPT](https://arxiv.org/abs/2303.17564v1)| 2023 |BloombergGPT:금융분야를 위한 대규모 언어 모델|
| [Cerebras-GPT](https://arxiv.org/abs/2304.03208) | 2023 | Cerebras-GPT: Wafer-Scale Cluster에서 훈련된 오픈 컴퓨트 최적화 언어 모델 |
| [PaLM 2](https://ai.google/static/documents/palm2techreport.pdf) | 2023 | PaLM보다 더 나은 다국어 및 추론 능력을 갖추며, 계산 효율성이 뛰어난 언어 모델 |