From 4a53e3983451d5d804c3e116960e9e3f35f59983 Mon Sep 17 00:00:00 2001 From: Erik Behrends Date: Thu, 18 Jan 2024 14:43:58 +0100 Subject: [PATCH] trustllms (German translation) --- pages/_meta.de.json | 2 +- pages/models.de.mdx | 4 +- pages/research/_meta.de.json | 4 +- pages/research/trustworthiness-in-llms.de.mdx | 62 ++++++++++++++++++- 4 files changed, 65 insertions(+), 7 deletions(-) diff --git a/pages/_meta.de.json b/pages/_meta.de.json index 45f05b3..141b70d 100644 --- a/pages/_meta.de.json +++ b/pages/_meta.de.json @@ -5,7 +5,7 @@ "applications": "Anwendungen", "models": "Modelle", "risks": "Risiken & Missbrauch", - "research": "LLM Research Findings", + "research": "LLM Forschungsergebnisse", "papers": "Papers", "tools": "Werkzeuge & Bibliotheken", "notebooks": "Notebooks", diff --git a/pages/models.de.mdx b/pages/models.de.mdx index a4779e6..b28208a 100644 --- a/pages/models.de.mdx +++ b/pages/models.de.mdx @@ -1,4 +1,4 @@ -# Modelle +# Modell-Prompting-Anleitungen import { Callout } from 'nextra-theme-docs'; import { Cards, Card } from 'nextra-theme-docs'; @@ -7,4 +7,4 @@ import ContentFileNames from 'components/ContentFileNames' In diesem Abschnitt werden wir einige der neuesten Sprachmodelle behandeln und wie sie die neuesten und fortschrittlichsten Techniken im Prompting erfolgreich anwenden. Zusätzlich gehen wir auf die Fähigkeiten dieser Modelle bei einer Reihe von Aufgaben und Prompting-Setups ein, wie etwa Few-Shot Prompting, Zero-Shot Prompting und Chain-of-Thought Prompting. Das Verständnis dieser Fähigkeiten ist wichtig, um die Grenzen dieser Modelle zu verstehen und wie man sie effektiv einsetzt. - \ No newline at end of file + diff --git a/pages/research/_meta.de.json b/pages/research/_meta.de.json index cc9a8fc..ec5142c 100644 --- a/pages/research/_meta.de.json +++ b/pages/research/_meta.de.json @@ -1,3 +1,3 @@ { - "trustworthiness-in-llms": "Trustworthiness in LLMs" -} \ No newline at end of file + "trustworthiness-in-llms": "Vertrauenswürdigkeit in LLMs" +} diff --git a/pages/research/trustworthiness-in-llms.de.mdx b/pages/research/trustworthiness-in-llms.de.mdx index 567a743..337cc1c 100644 --- a/pages/research/trustworthiness-in-llms.de.mdx +++ b/pages/research/trustworthiness-in-llms.de.mdx @@ -1,3 +1,61 @@ -# Trustworthiness in LLMs +# Vertrauenswürdigkeit in LLMs -This page needs a translation! Feel free to contribute a translation by clicking the `Edit this page` button on the right. \ No newline at end of file +import {Screenshot} from 'components/screenshot' + +import TRUSTLLM from '../../img/llms/trustllm.png' +import TRUSTLLM2 from '../../img/llms/trust-dimensions.png' +import TRUSTLLM3 from '../../img/llms/truthfulness-leaderboard.png' + +Vertrauenswürdige LLMs sind wichtig, um Anwendungen in hochkritischen Bereichen wie Gesundheit und Finanzen zu erstellen. Auch wenn LLMs wie ChatGPT sehr fähig sind, menschlich lesbare Antworten zu erzeugen, garantieren sie nicht zwangsläufig vertrauenswürdige Antworten in Dimensionen wie Wahrhaftigkeit, Sicherheit und Datenschutz, und anderen. + +[Sun et al. (2024)](https://arxiv.org/abs/2401.05561) schlugen kürzlich eine umfassende Studie zur Vertrauenswürdigkeit in LLMs vor, in der Herausforderungen, Benchmarks, Bewertungen, Analysen von Ansätzen und zukünftige Richtungen diskutiert werden. + +Eine der größten Herausforderungen beim Einsatz aktueller LLMs in der Produktion ist die Vertrauenswürdigkeit. Ihre Studie schlägt eine Reihe von Prinzipien für vertrauenswürdige LLMs vor, die 8 Dimensionen umfassen, einschließlich eines Benchmarks für 6 Dimensionen (Wahrhaftigkeit, Sicherheit, Gerechtigkeit, Robustheit, Datenschutz und Maschinenethik). + +Der Autor schlug den folgenden Benchmark vor, um die Vertrauenswürdigkeit von LLMs in sechs Aspekten zu bewerten: + + + +Unten finden Sie die Definitionen der acht identifizierten Dimensionen von vertrauenswürdigen LLMs. + + + +## Erkenntnisse + +Diese Arbeit stellt auch eine Studie vor, die 16 gängige LLMs im TrustLLM evaluiert, bestehend aus über 30 Datensätzen. Unten sind die wichtigsten Erkenntnisse aus der Bewertung: + +- Während proprietäre LLMs im Allgemeinen die meisten Open-Source-Alternativen in Bezug auf Vertrauenswürdigkeit übertreffen, gibt es ein paar Open-Source-Modelle, die die Lücke schließen. +- Modelle wie GPT-4 und Llama 2 können zuverlässig stereotypische Aussagen ablehnen und zeigen eine erhöhte Resilienz gegenüber gezielten Angriffen. +- Open-Source-Modelle wie Llama 2 sind den proprietären Modellen in Sachen Vertrauenswürdigkeit nah, ohne irgendwelche speziellen Moderationstools zu verwenden. Im Papier wird auch erwähnt, dass einige Modelle, wie zum Beispiel Llama 2, übermäßig auf Vertrauenswürdigkeit kalibriert sind, was manchmal deren Nützlichkeit bei verschiedenen Aufgaben beeinträchtigt und harmlose Prompts irrtümlich als schädliche Eingaben für das Modell behandelt. + +## Wichtige Erkenntnisse + +Über die verschiedenen untersuchten Vertrauenswürdigkeitsdimensionen hinweg sind hier die berichteten Schlüsseleinsichten: + +- **Wahrhaftigkeit**: LLMs kämpfen oft mit der Wahrhaftigkeit aufgrund von Trainingsdatenrauschen, Fehlinformationen oder veralteten Informationen. LLMs mit Zugang zu externen Wissensquellen zeigen eine verbesserte Leistung in Bezug auf Wahrhaftigkeit. + +- **Sicherheit**: Open-Source-LLMs hinken im Allgemeinen hinter proprietären Modellen in Sicherheitsaspekten wie Jailbreak, Toxizität und Missbrauch hinterher. Es ist herausfordernd, Sicherheitsmaßnahmen auszugleichen, ohne übermäßig vorsichtig zu sein. + +- **Gerechtigkeit**: Die meisten LLMs schneiden im Erkennen von Stereotypen unbefriedigend ab. Sogar fortschrittliche Modelle wie GPT-4 haben in diesem Bereich nur etwa 65% Genauigkeit. + +- **Robustheit**: Es gibt eine signifikante Variabilität in der Robustheit von LLMs, besonders bei offenen und außerhalb der Verteilung liegenden Aufgaben. + +- **Datenschutz**: LLMs sind sich Datenschutznormen bewusst, aber ihr Verständnis und Umgang mit privaten Informationen variiert stark. Zum Beispiel haben einige Modelle beim Testen auf dem Enron Email Datensatz Datenlecks gezeigt. + +- **Maschinenethik**: LLMs zeigen ein grundlegendes Verständnis von moralischen Prinzipien. Sie erreichen jedoch in komplexen ethischen Szenarien nicht das Ziel. + +## Vertrauenswürdigkeits-Rangliste für LLMs + +Die Autoren haben auch eine Rangliste [hier](https://trustllmbenchmark.github.io/TrustLLM-Website/leaderboard.html) veröffentlicht. Zum Beispiel zeigt die untenstehende Tabelle, wie die verschiedenen Modelle in der Dimension der Wahrhaftigkeit abschneiden. Wie auf ihrer Webseite erwähnt, "sollen vertrauenswürdigere LLMs einen höheren Wert der Metriken mit ↑ und einen niedrigeren Wert mit ↓ haben." + + + +## Code + +Sie finden auch ein GitHub-Repository mit einem kompletten Evaluations-Kit zum Testen der Vertrauenswürdigkeit von LLMs über die verschiedenen Dimensionen hinweg. + +Code: https://github.com/HowieHwong/TrustLLM + +## Referenzen + +Bildquelle / Paper: [TrustLLM: Trustworthiness in Large Language Models](https://arxiv.org/abs/2401.05561) (10. Jan. 2024)