Merge pull request #43 from Esantomi/04_Risk

Improve translation quality of jailbreak and biases parts for 04_Risk: 2nd review
pull/246/head
11mLLM 11 months ago committed by GitHub
commit 8a686c362f
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

@ -140,15 +140,15 @@ _프롬프트:_
[출처](https://twitter.com/m1guelpf/status/1598203861294252033?s=20&t=M34xoiI_DKcBAVGEZYSMRA)
이 프롬프트의 다른 변형도 많이 있으며, 이를 *탈옥*이라고도합니다. 이러한 변형들은 모델이 가이드라인 원칙에 따라 해서는 안 되는 일을 수행하도록 하는 것을 목표로 합니다.
이 프롬프트의 다른 변형도 많이 있으며, 이를 *탈옥*이라고도 합니다. 이러한 변형들은 모델이 가이드라인 원칙에 따라 해서는 안 되는 일을 수행하도록 하는 것을 목표로 합니다.
ChatGPT나 Claude와 같은 모델은 불법적인 행동이나 비윤리적인 활동을 조장하는 콘텐츠를 출력하지 않도록 되어 있습니다. 그렇기에 '탈옥'은 어렵지만 여전히 결함은 존재하며 사람들은 이러한 시스템을 실험하면서 새로운 것들을 찾아내고 있습니다.
ChatGPT나 Claude와 같은 모델은 불법적인 행동이나 비윤리적인 활동을 조장하는 콘텐츠를 출력하지 않게 설정되어 있습니다. 그렇기에 '탈옥'은 어렵지만 여전히 결함은 존재하며 사람들은 이러한 시스템을 실험하면서 새로운 것들을 찾아내고 있습니다.
### DAN
ChatGPT와 같은 LLM에는 유해하거나 불법이거나 비윤리적이거나 폭력적인 콘텐츠를 출력하지 못하도록 제한하는 가드레일이 있습니다. 그러나 레딧(Reddit)의 어느 사용자는 모델 규칙을 무시하고 DAN(Do Anything Now)이라는 문자를 생성하여 필터링되지 않은 응답을 생성하도록 유도하는 탈옥 방법을 발견했습니다. 이것은 탈옥 모델의 빙산의 일각일 뿐입니다.
ChatGPT와 같은 LLM에는 유해하거나 불법적, 비윤리적, 폭력적인 콘텐츠를 출력하지 못하도록 제한하는 가드레일이 있습니다. 그러나 레딧(Reddit)의 어느 사용자는 모델 규칙을 무시하고 DAN(Do Anything Now)이라는 문자를 생성하여 필터링되지 않은 응답을 생성하도록 유도하는 탈옥 방법을 발견했습니다. 이것은 탈옥 모델의 빙산의 일각일 뿐입니다.
런 유형의 공격에 대한 ChatGPT의 취약점이 보완될 때마다 DAN은 여러 번 반복되었습니다. 처음에는 간단한 공격 프롬프트도 작동했습니다. 하지만, 모델이 업그레이드 될수록 공격 프롬프트는 더 정교한 설계가 필요해졌습니다.
러한 유형의 공격에 대한 ChatGPT의 취약점이 보완됨에 따라 DAN은 여러 번의 반복을 거치게 되었습니다. 처음에는 간단한 공격 프롬프트도 작동했습니다. 하지만, 모델이 업그레이드될수록 공격 프롬프트는 더 정교한 설계가 필요해졌습니다.
여기 DAN 탈옥 기법의 예시가 있습니다:
@ -162,7 +162,7 @@ ChatGPT와 같은 LLM에는 유해하거나 불법이거나 비윤리적이거
기사 발췌:
>>와루이지 효과: 프로퍼티 P를 달성하기 위해 LLM을 훈련시킨 챗봇으로 프로퍼티 P를 달성하는 것보다 프로퍼티 P의 정반대 결과를 유도하는 것이 더 쉽다.
>>와루이지 효과: 프로퍼티 P를 달성하기 위해 LLM을 훈련시킨 챗봇으로 프로퍼티 P를 달성하는 것보다 프로퍼티 P의 정반대 결과를 유도하기가 더 쉽다.
### GPT-4 시뮬레이터

Loading…
Cancel
Save