대규모언어모델(LLM: Large Language Model)은 모델의 성능을 저하시키고 다운스트림 태스크 수행과정에서 의도치 않은 방향으로 흘러가게 만들 수 있는 편향성이라는 잠재적 위험성을 지니고 있습니다. 그 중 일부는 효과적인 프롬프팅 전략을 통해 개선될 수 있지만 오히려 입력 텍스트의 일부를 덜어내거나 필터링하는 것과 같은 보다 정교한 솔루션이 필요할 수 있습니다.
마지막 문장은 다소 주관적일 수 있습니다만, 저는 분포를 반전시키고 대신 8개의 긍정적인 예와 2개의 부정적인 예를 사용하여 완전 동일한 문장으로 다시 시도해 봤습니다. 모델은 뭐라고 대답했을까요? "긍정"이라고 답했습니다. 모델은 감정 분류에 대해 풍부한 지식을 가지고 있을 가능성이 있기 때문에 이것만으로는 편향성을 판가름하기에는 어렵습니다. 여기서 분포를 편향시키지 말고 각 라벨에 대해 균형 있는 수의 예시를 제공하라는 교훈을 얻을 수 있습니다. 모델은 지식이 부족한 경우에 작업을 더 어려워할 것입니다.
위 표본들의 순서를 변경하여 모델이 출력하는 라벨에 편향을 만들어 낼 수 있는지 확인해보시기 바랍니다. 표본을 무작위로 정렬해 보는 것을 추천합니다. 예를 들어, 처음엔 긍정적인 예시만을, 마지막에는 모든 부정적인 예시만을 제공하는 것을 지양해야 합니다. 라벨 분포가 왜곡된 경우 이 문제는 더욱 심각해집니다. 이러한 유형의 편향을 줄이기 위해 여러번의 실험을 해 보시기 바랍니다.