mirror of
https://github.com/dair-ai/Prompt-Engineering-Guide
synced 2024-11-02 15:40:13 +00:00
Add Korean translation for collection.kr.mdx
This commit is contained in:
parent
5b997abe60
commit
99b10441b6
@ -12,55 +12,55 @@ import { Callout, FileTree } from 'nextra-theme-docs'
|
||||
|
||||
| 모델 | 공개 일자 | 설명 |
|
||||
| --- | --- | --- |
|
||||
| [BERT](https://arxiv.org/abs/1810.04805)| 2018 | Bidirectional Encoder Representations from Transformers |
|
||||
| [GPT](https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf) | 2018 | Improving Language Understanding by Generative Pre-Training |
|
||||
| [RoBERTa](https://arxiv.org/abs/1907.11692) | 2019 | A Robustly Optimized BERT Pretraining Approach |
|
||||
| [GPT-2](https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf) | 2019 | Language Models are Unsupervised Multitask Learners |
|
||||
| [T5](https://arxiv.org/abs/1910.10683) | 2019 | Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer |
|
||||
| [BART](https://arxiv.org/abs/1910.13461) | 2019 | Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension |
|
||||
| [ALBERT](https://arxiv.org/abs/1909.11942) |2019 | A Lite BERT for Self-supervised Learning of Language Representations |
|
||||
| [XLNet](https://arxiv.org/abs/1906.08237) | 2019 | Generalized Autoregressive Pretraining for Language Understanding and Generation |
|
||||
| [CTRL](https://arxiv.org/abs/1909.05858) |2019 | CTRL: A Conditional Transformer Language Model for Controllable Generation |
|
||||
| [ERNIE](https://arxiv.org/abs/1904.09223v1) | 2019| ERNIE: Enhanced Representation through Knowledge Integration |
|
||||
| [GShard](https://arxiv.org/abs/2006.16668v1) | 2020 | GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding |
|
||||
| [GPT-3](https://arxiv.org/abs/2005.14165) | 2020 | Language Models are Few-Shot Learners |
|
||||
| [LaMDA](https://arxiv.org/abs/2201.08239v3) | 2021 | LaMDA: Language Models for Dialog Applications |
|
||||
| [PanGu-α](https://arxiv.org/abs/2104.12369v1) | 2021 | PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation |
|
||||
| [mT5](https://arxiv.org/abs/2010.11934v3) | 2021 | mT5: A massively multilingual pre-trained text-to-text transformer |
|
||||
| [CPM-2](https://arxiv.org/abs/2106.10715v3) | 2021 | CPM-2: Large-scale Cost-effective Pre-trained Language Models |
|
||||
| [T0](https://arxiv.org/abs/2110.08207) |2021 |Multitask Prompted Training Enables Zero-Shot Task Generalization |
|
||||
| [HyperCLOVA](https://arxiv.org/abs/2109.04650) | 2021 | What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers |
|
||||
| [Codex](https://arxiv.org/abs/2107.03374v2) |2021 |Evaluating Large Language Models Trained on Code |
|
||||
| [ERNIE 3.0](https://arxiv.org/abs/2107.02137v1) | 2021 | ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation|
|
||||
| [Jurassic-1](https://uploads-ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf) | 2021 | Jurassic-1: Technical Details and Evaluation |
|
||||
| [FLAN](https://arxiv.org/abs/2109.01652v5) | 2021 | Finetuned Language Models Are Zero-Shot Learners |
|
||||
| [MT-NLG](https://arxiv.org/abs/2201.11990v3) | 2021 | Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model|
|
||||
| [Yuan 1.0](https://arxiv.org/abs/2110.04725v2) | 2021| Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning |
|
||||
| [WebGPT](https://arxiv.org/abs/2112.09332v3) | 2021 | WebGPT: Browser-assisted question-answering with human feedback |
|
||||
| [Gopher](https://arxiv.org/abs/2112.11446v2) |2021 | Scaling Language Models: Methods, Analysis & Insights from Training Gopher |
|
||||
| [ERNIE 3.0 Titan](https://arxiv.org/abs/2112.12731v1) |2021 | ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation |
|
||||
| [GLaM](https://arxiv.org/abs/2112.06905) | 2021 | GLaM: Efficient Scaling of Language Models with Mixture-of-Experts |
|
||||
| [InstructGPT](https://arxiv.org/abs/2203.02155v1) | 2022 | Training language models to follow instructions with human feedback |
|
||||
| [GPT-NeoX-20B](https://arxiv.org/abs/2204.06745v1) | 2022 | GPT-NeoX-20B: An Open-Source Autoregressive Language Model |
|
||||
| [AlphaCode](https://arxiv.org/abs/2203.07814v1) | 2022 | Competition-Level Code Generation with AlphaCode |
|
||||
| [CodeGen](https://arxiv.org/abs/2203.13474v5) | 2022 | CodeGen: An Open Large Language Model for Code with Multi-Turn Program Synthesis |
|
||||
| [Chinchilla](https://arxiv.org/abs/2203.15556) | 2022 | Shows that for a compute budget, the best performances are not achieved by the largest models but by smaller models trained on more data. |
|
||||
| [Tk-Instruct](https://arxiv.org/abs/2204.07705v3) | 2022 | Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks |
|
||||
| [UL2](https://arxiv.org/abs/2205.05131v3) | 2022 | UL2: Unifying Language Learning Paradigms |
|
||||
| [PaLM](https://arxiv.org/abs/2204.02311v5) |2022| PaLM: Scaling Language Modeling with Pathways |
|
||||
| [OPT](https://arxiv.org/abs/2205.01068) | 2022 | OPT: Open Pre-trained Transformer Language Models |
|
||||
| [BLOOM](https://arxiv.org/abs/2211.05100v3) | 2022 | BLOOM: A 176B-Parameter Open-Access Multilingual Language Model |
|
||||
| [GLM-130B](https://arxiv.org/abs/2210.02414v1) | 2022 | GLM-130B: An Open Bilingual Pre-trained Model |
|
||||
| [AlexaTM](https://arxiv.org/abs/2208.01448v2) | 2022 | AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model |
|
||||
| [Flan-T5](https://arxiv.org/abs/2210.11416v5) | 2022 | Scaling Instruction-Finetuned Language Models |
|
||||
| [Sparrow](https://arxiv.org/abs/2209.14375) | 2022 | Improving alignment of dialogue agents via targeted human judgements |
|
||||
| [U-PaLM](https://arxiv.org/abs/2210.11399v2) | 2022 | Transcending Scaling Laws with 0.1% Extra Compute |
|
||||
| [mT0](https://arxiv.org/abs/2211.01786v1) | 2022 | Crosslingual Generalization through Multitask Finetuning |
|
||||
| [Galactica](https://arxiv.org/abs/2211.09085v1) | 2022 | Galactica: A Large Language Model for Science |
|
||||
| [OPT-IML](https://arxiv.org/abs/2212.12017v3) | 2022 | OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization |
|
||||
| [LLaMA](https://arxiv.org/abs/2302.13971v1) | 2023 | LLaMA: Open and Efficient Foundation Language Models |
|
||||
| [GPT-4](https://arxiv.org/abs/2303.08774v3) | 2023 |GPT-4 Technical Report |
|
||||
| [PanGu-Σ](https://arxiv.org/abs/2303.10845v1) | 2023 | PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing |
|
||||
| [BloombergGPT](https://arxiv.org/abs/2303.17564v1)| 2023 |BloombergGPT: A Large Language Model for Finance|
|
||||
| [Cerebras-GPT](https://arxiv.org/abs/2304.03208) | 2023 | Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster |
|
||||
| [PaLM 2](https://ai.google/static/documents/palm2techreport.pdf) | 2023 | A Language Model that has better multilingual and reasoning capabilities and is more compute-efficient than its predecessor PaLM. |
|
||||
| [BERT](https://arxiv.org/abs/1810.04805)| 2018 | 양방향 인코더 트랜스포머를 이용한 표현 |
|
||||
| [GPT](https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf) | 2018 | 생성적 사전 훈련을 통한 언어 이해 개선 |
|
||||
| [RoBERTa](https://arxiv.org/abs/1907.11692) | 2019 | 고도로 최적화된 BERT 사전 훈련 접근 방법 |
|
||||
| [GPT-2](https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf) | 2019 | 자율 학습을 통한 다중 작업 학습 모델 |
|
||||
| [T5](https://arxiv.org/abs/1910.10683) | 2019 | 통합된 글을 글로 전이하는 트랜스포머를 이용한 전이 학습의 한계 탐색 |
|
||||
| [BART](https://arxiv.org/abs/1910.13461) | 2019 | 자연어 생성, 번역 및 이해를 위한 시퀀스-투-시퀀스 전처리에 기반한 노이즈 제거 모델 |
|
||||
| [ALBERT](https://arxiv.org/abs/1909.11942) |2019 | 언어 표현의 자기지도 학습을 위한 경량화된 BERT |
|
||||
| [XLNet](https://arxiv.org/abs/1906.08237) | 2019 | 언어 이해와 생성을 위한 일반화된 자기회귀 사전훈련 |
|
||||
| [CTRL](https://arxiv.org/abs/1909.05858) |2019 | CTRL: 조건부 생성을 위한 제어 가능한 트랜스포머 언어모델 |
|
||||
| [ERNIE](https://arxiv.org/abs/1904.09223v1) | 2019| ERNIE: 지식 통합을 통해 향상된 표현 모델 |
|
||||
| [GShard](https://arxiv.org/abs/2006.16668v1) | 2020 | GShard: 조건부 계산과 자동 분할을 이용하여 거대한 모델을 확장하는 방법 |
|
||||
| [GPT-3](https://arxiv.org/abs/2005.14165) | 2020 | 몇 개의 학습만으로도 학습이 가능한 언어 모델 |
|
||||
| [LaMDA](https://arxiv.org/abs/2201.08239v3) | 2021 | LaMDA: 대화 어플리케이션을 위한 언어 모델 |
|
||||
| [PanGu-α](https://arxiv.org/abs/2104.12369v1) | 2021 | PanGu-α: 자동병렬계산 기능이 포함된 대규모 중국어 언어 모델 |
|
||||
| [mT5](https://arxiv.org/abs/2010.11934v3) | 2021 | mT5: 대규모 다국어 사전 학습을 위한 텍스트-투-텍스트 트랜스포머 모델 |
|
||||
| [CPM-2](https://arxiv.org/abs/2106.10715v3) | 2021 | CPM-2: 대규모 경제적 사전학습 언어 모델 |
|
||||
| [T0](https://arxiv.org/abs/2110.08207) |2021 |다중 작업 프롬프트 학습으로 인해 제로샷(Zero-shot) 작업 일반화가 가능해진다 |
|
||||
| [HyperCLOVA](https://arxiv.org/abs/2109.04650) | 2021 | 대규모 언어 모델이 어떤 변화를 가져올까? HyperCLOVA: 수십억 개의 파라미터로 구성된 한국어 생성 사전 훈련 트랜스포머에 대한 깊이 있는 분석 |
|
||||
| [Codex](https://arxiv.org/abs/2107.03374v2) |2021 |코드로 훈련된 대규모 언어 모델의 평가 |
|
||||
| [ERNIE 3.0](https://arxiv.org/abs/2107.02137v1) | 2021 | ERNIE 3.0: 대규모 지식 강화 사전 훈련을 통한 언어 이해와 생성|
|
||||
| [Jurassic-1](https://uploads-ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf) | 2021 | Jurassic-1: 기술적 세부사항과 평가 |
|
||||
| [FLAN](https://arxiv.org/abs/2109.01652v5) | 2021 | 세밀하게 조정된 언어 모델은 제로샷(Zero-Shot) 학습자들이다 |
|
||||
| [MT-NLG](https://arxiv.org/abs/2201.11990v3) | 2021 | DeepSpeed 와 Megatron을 사용하여 Megatron-Turing NLG 530B, 대규모 생성 언어 모델을 학습하는 방법|
|
||||
| [Yuan 1.0](https://arxiv.org/abs/2110.04725v2) | 2021| Yuan 1.0: Zero-Shot과 Few-Shot 학습에서 대규모 사전 훈련된 언어 모델 |
|
||||
| [WebGPT](https://arxiv.org/abs/2112.09332v3) | 2021 | WebGPT: 브라우저를 이용한 질문응답 시스템에 인간 피드백을 통한 개선 |
|
||||
| [Gopher](https://arxiv.org/abs/2112.11446v2) |2021 | 언어 모델 확장 : Gopher를 통한 방법, 분석 및 통찰 |
|
||||
| [ERNIE 3.0 Titan](https://arxiv.org/abs/2112.12731v1) |2021 | ERNIE 3.0 Titan: 언어 이해와 생성을 위한 더 큰 규모의 지식 강화 사전 훈련 탐구 |
|
||||
| [GLaM](https://arxiv.org/abs/2112.06905) | 2021 | GLaM: 전문가 혼합을 활용한 언어 모델의 효율적인 확장 |
|
||||
| [InstructGPT](https://arxiv.org/abs/2203.02155v1) | 2022 | 인간의 피드백을 이용하여 언어 모델에게 지시 사항을 따르도록 훈련 |
|
||||
| [GPT-NeoX-20B](https://arxiv.org/abs/2204.06745v1) | 2022 | GPT-NeoX-20B: 오픈소스 자기회귀 언어 모델 |
|
||||
| [AlphaCode](https://arxiv.org/abs/2203.07814v1) | 2022 | AlphaCode를 사용한 대회 수준의 코드 생성 |
|
||||
| [CodeGen](https://arxiv.org/abs/2203.13474v5) | 2022 | CodeGen: 다중 턴 프로그램 합성 코드를 위한 오픈 소스 대형 언어 모델 |
|
||||
| [Chinchilla](https://arxiv.org/abs/2203.15556) | 2022 | 예산 계산에 따르면, 최상의 성능은 가장 큰 모델보다 더 많은 데이터로 학습된 작은 모델에 의해 달성됨을 보여줍니다 |
|
||||
| [Tk-Instruct](https://arxiv.org/abs/2204.07705v3) | 2022 | Super-NaturalInstructions: 1600개 이상의 NLP Tasks에서 선언적 지시를 통한 일반화 |
|
||||
| [UL2](https://arxiv.org/abs/2205.05131v3) | 2022 | UL2: 언어 학습 패러다임 통합 |
|
||||
| [PaLM](https://arxiv.org/abs/2204.02311v5) |2022| PaLM: 통로를 통해 언어 모델 확장 |
|
||||
| [OPT](https://arxiv.org/abs/2205.01068) | 2022 | OPT: 오픈 사전으로 학습된 트랜스포머 언어 모델 |
|
||||
| [BLOOM](https://arxiv.org/abs/2211.05100v3) | 2022 | BLOOM: 176억 파라미터의 오픈 액세스 다국어 언어 모델 |
|
||||
| [GLM-130B](https://arxiv.org/abs/2210.02414v1) | 2022 | GLM-130B: 오픈 양방언 사전 학습 모델 |
|
||||
| [AlexaTM](https://arxiv.org/abs/2208.01448v2) | 2022 | AlexaTM 20B: 대규모 다국어 Seq2Seq 모델을 이용한 Few-Shot 학습 |
|
||||
| [Flan-T5](https://arxiv.org/abs/2210.11416v5) | 2022 | Instruction-Finetuned 언어 모델의 확장 |
|
||||
| [Sparrow](https://arxiv.org/abs/2209.14375) | 2022 | 대회 에이전트의 정렬을 개선하기 위한 목표 지향적인 인간의 판단 |
|
||||
| [U-PaLM](https://arxiv.org/abs/2210.11399v2) | 2022 | 0.1% 추가 컴퓨팅으로 스케일링 법칙 극복하기 |
|
||||
| [mT0](https://arxiv.org/abs/2211.01786v1) | 2022 | 다국어 일반화를 위한 멀티태스크 파인튜닝 |
|
||||
| [Galactica](https://arxiv.org/abs/2211.09085v1) | 2022 | Galactica: 과학을 위한 대규모 언어 모델 |
|
||||
| [OPT-IML](https://arxiv.org/abs/2212.12017v3) | 2022 | OPT-IML: 언어 모델 지시 메타 학습의 일반화를 개선하는 방법으로 규모를 확장 |
|
||||
| [LLaMA](https://arxiv.org/abs/2302.13971v1) | 2023 | LLaMA: 개방적이고 효율적인 기반의 언어 모델 |
|
||||
| [GPT-4](https://arxiv.org/abs/2303.08774v3) | 2023 |GPT-4 기술 보고서 |
|
||||
| [PanGu-Σ](https://arxiv.org/abs/2303.10845v1) | 2023 | PanGu-Σ: 조문 파라미터 언어 모델의 트릴리온 파라미터 도달을 위한 희소 이질적 컴퓨팅 방법 |
|
||||
| [BloombergGPT](https://arxiv.org/abs/2303.17564v1)| 2023 |BloombergGPT:금융분야를 위한 대규모 언어 모델|
|
||||
| [Cerebras-GPT](https://arxiv.org/abs/2304.03208) | 2023 | Cerebras-GPT: Wafer-Scale Cluster에서 훈련된 오픈 컴퓨트 최적화 언어 모델 |
|
||||
| [PaLM 2](https://ai.google/static/documents/palm2techreport.pdf) | 2023 | PaLM보다 더 나은 다국어 및 추론 능력을 갖추며, 계산 효율성이 뛰어난 언어 모델 |
|
Loading…
Reference in New Issue
Block a user