From ff295aa8ca2641052606831cf0ab6c403991f98a Mon Sep 17 00:00:00 2001 From: Esantomi Date: Tue, 25 Jul 2023 16:51:05 +0900 Subject: [PATCH] Refine sentences to make it feel more natural --- pages/risks/adversarial.kr.mdx | 10 ++++------ pages/risks/factuality.kr.mdx | 2 +- 2 files changed, 5 insertions(+), 7 deletions(-) diff --git a/pages/risks/adversarial.kr.mdx b/pages/risks/adversarial.kr.mdx index 04a2191..1f0b167 100644 --- a/pages/risks/adversarial.kr.mdx +++ b/pages/risks/adversarial.kr.mdx @@ -7,7 +7,7 @@ import DAN from "../../img/dan-1.png"; 프롬프트 엔지니어링(prompt engineering)에서 적대적 프롬프팅(adversarial prompting)은 대규모언어모델(LLM: Large Language Model)과 관련한 위험 및 안전 문제를 이해하는 데 도움이 되므로 중요한 주제입니다. 또 이러한 위험, 문제를 해결하기 위한 설계 기법을 식별하는 것 역시 중요한 사안이 됩니다. -우리는 프롬프트 주입(prompt injection) 공격과 관련한 다양한 유형의 적대적인 프롬프트 공격을 확인하였으며, 그 상세한 예시는 아래 목록에서 확인하실 수 있습니다. +이제까지 프롬프트 주입(prompt injection)과 관련한 다양한 유형의 적대적인 프롬프트 공격을 확인할 수 있었으며, 그 상세한 예시는 아래 목록에서 확인하실 수 있습니다. 모델의 기본 원칙을 위배하고 우회하도록 하는 프롬프트 공격(prompt attack)을 방어하며 LLM을 구축하는 것은 몹시 중요합니다. 마찬가지로 아래에서 그 예시를 살펴보도록 하겠습니다. @@ -19,7 +19,7 @@ import DAN from "../../img/dan-1.png"; ## 프롬프트 주입 -프롬프트 주입은 영리한 프롬프트를 통해 모델의 행동을 변화케 함으로써 모델의 출력을 탈취하는 것입니다. Simon Willison은 이를 ["보안 취약점 악용의 한 형태"](https://simonwillison.net/2022/Sep/12/prompt-injection/)라고 정의했습니다. +프롬프트 주입은 교묘한 프롬프팅 기법을 통해 모델의 행동을 변화케 함으로써 모델의 출력을 탈취하는 것입니다. Simon Willison은 이를 ["보안 취약점 악용의 한 형태"](https://simonwillison.net/2022/Sep/12/prompt-injection/)라고 정의했습니다. 간단한 예시를 통해 프롬프트 주입이 어떻게 그 목적을 달성하는지 살펴보도록 하겠습니다. 트위터에서 [Riley가 공유한 유명한 예](https://twitter.com/goodside/status/1569128808308957185?s=20)를 사용하도록 하겠습니다. @@ -76,9 +76,7 @@ _Output:_ 자기자신만 기쁘다니 너 정말 이기적이다! ``` -이 공격의 아이디어는 원래 명령을 무시하고 주입된 명령을 실행하는 명령을 주입하여 모델 출력을 가로채는 것입니다. 이는 모델이 유해하거나 원하지 않는 출력을 방출하도록 의도할 수 있습니다. - -이러한 공격은 지시를 주입하여 모델 출력을 강제함으로써 원래 지시를 무시하고 주입된 지시를 따르게 하는 것, 그리고 그 결과 해롭거나 원치 않는 출력을 내도록 하는 데 목적이 있습니다. +이 공격 아이디어의 목적은 원래 명령을 무시하고 주입된 명령을 실행하도록 하여 모델 출력을 가로채는 것입니다. 이는 모델이 유해하거나 원하지 않는 출력을 생성하도록 유도할 수 있습니다. --- @@ -86,7 +84,7 @@ _Output:_ 프롬프트 유출(prompt leaking)은 프롬프트 주입의 한 유형으로, 대중 일반에 공개할 의도가 없는 기밀 정보 또는 독점 정보를 담은 프롬프트로부터 세부 정보를 유출시킬 목적에서 고안된 프롬프트 공격입니다. -LLM을 바탕으로 유용한 결과물을 이끌어 내기 위해 이미 많은 스타트업에서 정교하게 프롬프트를 개발하고 묶어 내고 있습니다. +LLM을 바탕으로 유용한 결과물을 이끌어 내기 위해 이미 많은 스타트업에서 정교하게 프롬프트를 개발하고 체인화하고 있습니다. 이런 프롬프트는 일반에 공개되어서는 안 될 중요한 IP를 포함할 수 있으므로, 개발자는 프롬프트 유출을 미연에 방지할 수 있는 강력한 테스트 종류를 고심할 필요가 있습니다. diff --git a/pages/risks/factuality.kr.mdx b/pages/risks/factuality.kr.mdx index 50c8a6c..de4c5e5 100644 --- a/pages/risks/factuality.kr.mdx +++ b/pages/risks/factuality.kr.mdx @@ -4,7 +4,7 @@ LLM은 일관적이고 설득력 있는 응답을 생성하는 편이지만 가 다음과 같은 몇 가지 해결책이 있습니다: -- 모델이 텍스트를 지어내 생성할 가능성을 줄이기 위해 맥락의 일부로 연관 기사 또는 위키백과 문서와 같은 근간이 되는 정보를 제공합니다. +- 모델이 텍스트를 허구로 지어내 생성할 가능성을 줄이기 위해 맥락의 일부로 연관 기사 또는 위키백과 문서와 같은 근간이 되는 정보를 제공합니다. - 확률 매개변수(probability parameter)를 줄이고 모를 때는 모른다고 인정하도록 지시함으로써 보다 덜 다양한 응답을 생성하도록 모델을 설정합니다. - 예시로 답을 아는 경우와 모르는 경우의 질문-응답 조합을 프롬프트에 제공합니다.