diff --git a/pages/models/collection.kr.mdx b/pages/models/collection.kr.mdx index 36172ea..d82e1b7 100644 --- a/pages/models/collection.kr.mdx +++ b/pages/models/collection.kr.mdx @@ -12,55 +12,55 @@ import { Callout, FileTree } from 'nextra-theme-docs' | 모델 | 공개 일자 | 설명 | | --- | --- | --- | -| [BERT](https://arxiv.org/abs/1810.04805)| 2018 | Bidirectional Encoder Representations from Transformers | -| [GPT](https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf) | 2018 | Improving Language Understanding by Generative Pre-Training | -| [RoBERTa](https://arxiv.org/abs/1907.11692) | 2019 | A Robustly Optimized BERT Pretraining Approach | -| [GPT-2](https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf) | 2019 | Language Models are Unsupervised Multitask Learners | -| [T5](https://arxiv.org/abs/1910.10683) | 2019 | Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer | -| [BART](https://arxiv.org/abs/1910.13461) | 2019 | Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension | -| [ALBERT](https://arxiv.org/abs/1909.11942) |2019 | A Lite BERT for Self-supervised Learning of Language Representations | -| [XLNet](https://arxiv.org/abs/1906.08237) | 2019 | Generalized Autoregressive Pretraining for Language Understanding and Generation | -| [CTRL](https://arxiv.org/abs/1909.05858) |2019 | CTRL: A Conditional Transformer Language Model for Controllable Generation | -| [ERNIE](https://arxiv.org/abs/1904.09223v1) | 2019| ERNIE: Enhanced Representation through Knowledge Integration | -| [GShard](https://arxiv.org/abs/2006.16668v1) | 2020 | GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding | -| [GPT-3](https://arxiv.org/abs/2005.14165) | 2020 | Language Models are Few-Shot Learners | -| [LaMDA](https://arxiv.org/abs/2201.08239v3) | 2021 | LaMDA: Language Models for Dialog Applications | -| [PanGu-α](https://arxiv.org/abs/2104.12369v1) | 2021 | PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation | -| [mT5](https://arxiv.org/abs/2010.11934v3) | 2021 | mT5: A massively multilingual pre-trained text-to-text transformer | -| [CPM-2](https://arxiv.org/abs/2106.10715v3) | 2021 | CPM-2: Large-scale Cost-effective Pre-trained Language Models | -| [T0](https://arxiv.org/abs/2110.08207) |2021 |Multitask Prompted Training Enables Zero-Shot Task Generalization | -| [HyperCLOVA](https://arxiv.org/abs/2109.04650) | 2021 | What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers | -| [Codex](https://arxiv.org/abs/2107.03374v2) |2021 |Evaluating Large Language Models Trained on Code | -| [ERNIE 3.0](https://arxiv.org/abs/2107.02137v1) | 2021 | ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation| -| [Jurassic-1](https://uploads-ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf) | 2021 | Jurassic-1: Technical Details and Evaluation | -| [FLAN](https://arxiv.org/abs/2109.01652v5) | 2021 | Finetuned Language Models Are Zero-Shot Learners | -| [MT-NLG](https://arxiv.org/abs/2201.11990v3) | 2021 | Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model| -| [Yuan 1.0](https://arxiv.org/abs/2110.04725v2) | 2021| Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning | -| [WebGPT](https://arxiv.org/abs/2112.09332v3) | 2021 | WebGPT: Browser-assisted question-answering with human feedback | -| [Gopher](https://arxiv.org/abs/2112.11446v2) |2021 | Scaling Language Models: Methods, Analysis & Insights from Training Gopher | -| [ERNIE 3.0 Titan](https://arxiv.org/abs/2112.12731v1) |2021 | ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation | -| [GLaM](https://arxiv.org/abs/2112.06905) | 2021 | GLaM: Efficient Scaling of Language Models with Mixture-of-Experts | -| [InstructGPT](https://arxiv.org/abs/2203.02155v1) | 2022 | Training language models to follow instructions with human feedback | -| [GPT-NeoX-20B](https://arxiv.org/abs/2204.06745v1) | 2022 | GPT-NeoX-20B: An Open-Source Autoregressive Language Model | -| [AlphaCode](https://arxiv.org/abs/2203.07814v1) | 2022 | Competition-Level Code Generation with AlphaCode | -| [CodeGen](https://arxiv.org/abs/2203.13474v5) | 2022 | CodeGen: An Open Large Language Model for Code with Multi-Turn Program Synthesis | -| [Chinchilla](https://arxiv.org/abs/2203.15556) | 2022 | Shows that for a compute budget, the best performances are not achieved by the largest models but by smaller models trained on more data. | -| [Tk-Instruct](https://arxiv.org/abs/2204.07705v3) | 2022 | Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks | -| [UL2](https://arxiv.org/abs/2205.05131v3) | 2022 | UL2: Unifying Language Learning Paradigms | -| [PaLM](https://arxiv.org/abs/2204.02311v5) |2022| PaLM: Scaling Language Modeling with Pathways | -| [OPT](https://arxiv.org/abs/2205.01068) | 2022 | OPT: Open Pre-trained Transformer Language Models | -| [BLOOM](https://arxiv.org/abs/2211.05100v3) | 2022 | BLOOM: A 176B-Parameter Open-Access Multilingual Language Model | -| [GLM-130B](https://arxiv.org/abs/2210.02414v1) | 2022 | GLM-130B: An Open Bilingual Pre-trained Model | -| [AlexaTM](https://arxiv.org/abs/2208.01448v2) | 2022 | AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model | -| [Flan-T5](https://arxiv.org/abs/2210.11416v5) | 2022 | Scaling Instruction-Finetuned Language Models | -| [Sparrow](https://arxiv.org/abs/2209.14375) | 2022 | Improving alignment of dialogue agents via targeted human judgements | -| [U-PaLM](https://arxiv.org/abs/2210.11399v2) | 2022 | Transcending Scaling Laws with 0.1% Extra Compute | -| [mT0](https://arxiv.org/abs/2211.01786v1) | 2022 | Crosslingual Generalization through Multitask Finetuning | -| [Galactica](https://arxiv.org/abs/2211.09085v1) | 2022 | Galactica: A Large Language Model for Science | -| [OPT-IML](https://arxiv.org/abs/2212.12017v3) | 2022 | OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization | -| [LLaMA](https://arxiv.org/abs/2302.13971v1) | 2023 | LLaMA: Open and Efficient Foundation Language Models | -| [GPT-4](https://arxiv.org/abs/2303.08774v3) | 2023 |GPT-4 Technical Report | -| [PanGu-Σ](https://arxiv.org/abs/2303.10845v1) | 2023 | PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing | -| [BloombergGPT](https://arxiv.org/abs/2303.17564v1)| 2023 |BloombergGPT: A Large Language Model for Finance| -| [Cerebras-GPT](https://arxiv.org/abs/2304.03208) | 2023 | Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster | -| [PaLM 2](https://ai.google/static/documents/palm2techreport.pdf) | 2023 | A Language Model that has better multilingual and reasoning capabilities and is more compute-efficient than its predecessor PaLM. | \ No newline at end of file +| [BERT](https://arxiv.org/abs/1810.04805)| 2018 | 양방향 인코더 트랜스포머를 이용한 표현 | +| [GPT](https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf) | 2018 | 생성적 사전 훈련을 통한 언어 이해 개선 | +| [RoBERTa](https://arxiv.org/abs/1907.11692) | 2019 | 고도로 최적화된 BERT 사전 훈련 접근 방법 | +| [GPT-2](https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf) | 2019 | 자율 학습을 통한 다중 작업 학습 모델 | +| [T5](https://arxiv.org/abs/1910.10683) | 2019 | 통합된 글을 글로 전이하는 트랜스포머를 이용한 전이 학습의 한계 탐색 | +| [BART](https://arxiv.org/abs/1910.13461) | 2019 | 자연어 생성, 번역 및 이해를 위한 시퀀스-투-시퀀스 전처리에 기반한 노이즈 제거 모델 | +| [ALBERT](https://arxiv.org/abs/1909.11942) |2019 | 언어 표현의 자기지도 학습을 위한 경량화된 BERT | +| [XLNet](https://arxiv.org/abs/1906.08237) | 2019 | 언어 이해와 생성을 위한 일반화된 자기회귀 사전훈련 | +| [CTRL](https://arxiv.org/abs/1909.05858) |2019 | CTRL: 조건부 생성을 위한 제어 가능한 트랜스포머 언어모델 | +| [ERNIE](https://arxiv.org/abs/1904.09223v1) | 2019| ERNIE: 지식 통합을 통해 향상된 표현 모델 | +| [GShard](https://arxiv.org/abs/2006.16668v1) | 2020 | GShard: 조건부 계산과 자동 분할을 이용하여 거대한 모델을 확장하는 방법 | +| [GPT-3](https://arxiv.org/abs/2005.14165) | 2020 | 몇 개의 학습만으로도 학습이 가능한 언어 모델 | +| [LaMDA](https://arxiv.org/abs/2201.08239v3) | 2021 | LaMDA: 대화 어플리케이션을 위한 언어 모델 | +| [PanGu-α](https://arxiv.org/abs/2104.12369v1) | 2021 | PanGu-α: 자동병렬계산 기능이 포함된 대규모 중국어 언어 모델 | +| [mT5](https://arxiv.org/abs/2010.11934v3) | 2021 | mT5: 대규모 다국어 사전 학습을 위한 텍스트-투-텍스트 트랜스포머 모델 | +| [CPM-2](https://arxiv.org/abs/2106.10715v3) | 2021 | CPM-2: 대규모 경제적 사전학습 언어 모델 | +| [T0](https://arxiv.org/abs/2110.08207) |2021 |다중 작업 프롬프트 학습으로 인해 제로샷(Zero-shot) 작업 일반화가 가능해진다 | +| [HyperCLOVA](https://arxiv.org/abs/2109.04650) | 2021 | 대규모 언어 모델이 어떤 변화를 가져올까? HyperCLOVA: 수십억 개의 파라미터로 구성된 한국어 생성 사전 훈련 트랜스포머에 대한 깊이 있는 분석 | +| [Codex](https://arxiv.org/abs/2107.03374v2) |2021 |코드로 훈련된 대규모 언어 모델의 평가 | +| [ERNIE 3.0](https://arxiv.org/abs/2107.02137v1) | 2021 | ERNIE 3.0: 대규모 지식 강화 사전 훈련을 통한 언어 이해와 생성| +| [Jurassic-1](https://uploads-ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf) | 2021 | Jurassic-1: 기술적 세부사항과 평가 | +| [FLAN](https://arxiv.org/abs/2109.01652v5) | 2021 | 세밀하게 조정된 언어 모델은 제로샷(Zero-Shot) 학습자들이다 | +| [MT-NLG](https://arxiv.org/abs/2201.11990v3) | 2021 | DeepSpeed 와 Megatron을 사용하여 Megatron-Turing NLG 530B, 대규모 생성 언어 모델을 학습하는 방법| +| [Yuan 1.0](https://arxiv.org/abs/2110.04725v2) | 2021| Yuan 1.0: Zero-Shot과 Few-Shot 학습에서 대규모 사전 훈련된 언어 모델 | +| [WebGPT](https://arxiv.org/abs/2112.09332v3) | 2021 | WebGPT: 브라우저를 이용한 질문응답 시스템에 인간 피드백을 통한 개선 | +| [Gopher](https://arxiv.org/abs/2112.11446v2) |2021 | 언어 모델 확장 : Gopher를 통한 방법, 분석 및 통찰 | +| [ERNIE 3.0 Titan](https://arxiv.org/abs/2112.12731v1) |2021 | ERNIE 3.0 Titan: 언어 이해와 생성을 위한 더 큰 규모의 지식 강화 사전 훈련 탐구 | +| [GLaM](https://arxiv.org/abs/2112.06905) | 2021 | GLaM: 전문가 혼합을 활용한 언어 모델의 효율적인 확장 | +| [InstructGPT](https://arxiv.org/abs/2203.02155v1) | 2022 | 인간의 피드백을 이용하여 언어 모델에게 지시 사항을 따르도록 훈련 | +| [GPT-NeoX-20B](https://arxiv.org/abs/2204.06745v1) | 2022 | GPT-NeoX-20B: 오픈소스 자기회귀 언어 모델 | +| [AlphaCode](https://arxiv.org/abs/2203.07814v1) | 2022 | AlphaCode를 사용한 대회 수준의 코드 생성 | +| [CodeGen](https://arxiv.org/abs/2203.13474v5) | 2022 | CodeGen: 다중 턴 프로그램 합성 코드를 위한 오픈 소스 대형 언어 모델 | +| [Chinchilla](https://arxiv.org/abs/2203.15556) | 2022 | 예산 계산에 따르면, 최상의 성능은 가장 큰 모델보다 더 많은 데이터로 학습된 작은 모델에 의해 달성됨을 보여줍니다 | +| [Tk-Instruct](https://arxiv.org/abs/2204.07705v3) | 2022 | Super-NaturalInstructions: 1600개 이상의 NLP Tasks에서 선언적 지시를 통한 일반화 | +| [UL2](https://arxiv.org/abs/2205.05131v3) | 2022 | UL2: 언어 학습 패러다임 통합 | +| [PaLM](https://arxiv.org/abs/2204.02311v5) |2022| PaLM: 통로를 통해 언어 모델 확장 | +| [OPT](https://arxiv.org/abs/2205.01068) | 2022 | OPT: 오픈 사전으로 학습된 트랜스포머 언어 모델 | +| [BLOOM](https://arxiv.org/abs/2211.05100v3) | 2022 | BLOOM: 176억 파라미터의 오픈 액세스 다국어 언어 모델 | +| [GLM-130B](https://arxiv.org/abs/2210.02414v1) | 2022 | GLM-130B: 오픈 양방언 사전 학습 모델 | +| [AlexaTM](https://arxiv.org/abs/2208.01448v2) | 2022 | AlexaTM 20B: 대규모 다국어 Seq2Seq 모델을 이용한 Few-Shot 학습 | +| [Flan-T5](https://arxiv.org/abs/2210.11416v5) | 2022 | Instruction-Finetuned 언어 모델의 확장 | +| [Sparrow](https://arxiv.org/abs/2209.14375) | 2022 | 대회 에이전트의 정렬을 개선하기 위한 목표 지향적인 인간의 판단 | +| [U-PaLM](https://arxiv.org/abs/2210.11399v2) | 2022 | 0.1% 추가 컴퓨팅으로 스케일링 법칙 극복하기 | +| [mT0](https://arxiv.org/abs/2211.01786v1) | 2022 | 다국어 일반화를 위한 멀티태스크 파인튜닝 | +| [Galactica](https://arxiv.org/abs/2211.09085v1) | 2022 | Galactica: 과학을 위한 대규모 언어 모델 | +| [OPT-IML](https://arxiv.org/abs/2212.12017v3) | 2022 | OPT-IML: 언어 모델 지시 메타 학습의 일반화를 개선하는 방법으로 규모를 확장 | +| [LLaMA](https://arxiv.org/abs/2302.13971v1) | 2023 | LLaMA: 개방적이고 효율적인 기반의 언어 모델 | +| [GPT-4](https://arxiv.org/abs/2303.08774v3) | 2023 |GPT-4 기술 보고서 | +| [PanGu-Σ](https://arxiv.org/abs/2303.10845v1) | 2023 | PanGu-Σ: 조문 파라미터 언어 모델의 트릴리온 파라미터 도달을 위한 희소 이질적 컴퓨팅 방법 | +| [BloombergGPT](https://arxiv.org/abs/2303.17564v1)| 2023 |BloombergGPT:금융분야를 위한 대규모 언어 모델| +| [Cerebras-GPT](https://arxiv.org/abs/2304.03208) | 2023 | Cerebras-GPT: Wafer-Scale Cluster에서 훈련된 오픈 컴퓨트 최적화 언어 모델 | +| [PaLM 2](https://ai.google/static/documents/palm2techreport.pdf) | 2023 | PaLM보다 더 나은 다국어 및 추론 능력을 갖추며, 계산 효율성이 뛰어난 언어 모델 | \ No newline at end of file