명령어 튜닝(Instruction tuning)은 제로샷(zero-shot) 학습을 개선한다고 다음의 논문에서 보고되었습니다. [Wei et al. (2022)](https://arxiv.org/pdf/2109.01652.pdf). 명령어 튜닝은 본질적으로 명령어를 통해 설명된 데이터 세트에 대한 모델을 미세 조정 하는 개념입니다. 또한, [RLHF](https://arxiv.org/abs/1706.03741) (사람의 피드백을 통한 강화 학습)는 모델이 사람이 원하는 결과에 더 잘 맞도록 조정되는 명령어 튜닝을 확장하는 데 사용되었습니다. 이러한 개발 방식은 ChatGPT와 같은 모델에서 사용되었습니다. 다음 장에서 이러한 모든 접근 방식과 방법에 대해 설명하겠습니다.