Compare commits

...

5 Commits

Author SHA1 Message Date
Elvis Saravia 3168dbf4b8
Merge pull request #455 from behrends/tips_video_figures
Tips video and figures in corresponding German files
1 month ago
Elvis Saravia 6f1ed1d3d3
Merge pull request #456 from behrends/thoughtsculpt
thoughtsculpt (German translation)
1 month ago
Erik Behrends 39a0743b87 thoughsculpt (German translation) 1 month ago
Erik Behrends f14456c289 figures (in German file) 1 month ago
Erik Behrends 18433304a2 tips_video (in German file) 1 month ago

@ -1,5 +1,15 @@
# Allgemeine Tipps für das Entwerfen von Prompts
import {Bleed} from 'nextra-theme-docs'
<Bleed>
<iframe width="100%"
height="415px"
src="https://www.youtube.com/embed/7M6CSCIMJ3k?si=BgaVt9g1vS4BQzXZ" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
allowFullScreen
/>
</Bleed>
Hier sind einige Tipps, die Sie beim Entwerfen Ihrer Prompts im Kopf behalten sollten:
### Beginnen Sie einfach

@ -2,6 +2,8 @@
"llm-agents": "LLM Agenten",
"rag": "RAG für LLMs",
"llm-reasoning": "LLM Reasoning",
"thoughtsculpt": "ThoughtSculpt",
"infini-attention": "Infini-Attention",
"trustworthiness-in-llms": "Vertrauenswürdigkeit in LLMs",
"llm-tokenization": "LLM Tokenisierung",
"groq": "Was ist Groq?"

@ -0,0 +1,27 @@
# Effiziente Infinite Context Transformer
import {Bleed} from 'nextra-theme-docs'
<Bleed>
<iframe width="100%"
height="415px"
src="https://www.youtube.com/embed/tOaTaQ8ZGRo?si=pFP-KiLe63Ppl9Pd" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
allowFullScreen
/>
</Bleed>
Ein neues [Paper](https://arxiv.org/abs/2404.07143) von Google integriert kompressiven Speicher in eine Vanilla Dot-Product Attention-Schicht.
Das Ziel ist es, Transformer-LLMs zu ermöglichen, effektiv unendlich lange Eingaben mit begrenztem Speicherbedarf und Rechenaufwand zu verarbeiten.
Sie schlagen eine neue Aufmerksamkeitstechnik vor, die als Infini-Attention bezeichnet wird, welche eine kompressive Speichereinheit in einen Vanilla-Aufmerksamkeitsmechanismus einbaut.
!["Infini-Attention"](../../img/research/infini-attention.png)
Es kombiniert sowohl maskierte lokale Aufmerksamkeit als auch langfristige lineare Aufmerksamkeit in einem einzigen Transformer-Block. Dies ermöglicht es dem Infini-Transformer-Modell, effizient sowohl lang- als auch kurzreichende Kontextabhängigkeiten zu handhaben.
Dieser Ansatz übertrifft Basismodelle beim langkontextuellen Sprachmodellieren mit einem Speicherkompressionsverhältnis von 114x!
Sie zeigen auch, dass ein 1B LLM natürlich auf eine Sequenzlänge von 1M skaliert werden kann und ein 8B-Modell ein neues SoTA-Ergebnis bei einer Buchzusammenfassungsaufgabe mit einer Länge von 500K erreicht.
Angesichts der wachsenden Bedeutung von langkontextuellen LLMs könnte ein effektives Speichersystem leistungsstarke Fähigkeiten im Bereich des Schlussfolgerns, Planens, der kontinuierlichen Anpassung und bisher in LLMs nicht gesehene Fähigkeiten freisetzen.

@ -17,10 +17,12 @@ Kurz gesagt, die bei RAG abgerufenen Belege können als eine Möglichkeit dienen
Während RAG auch die Optimierung von Vortrainingsmethoden involviert hat, haben aktuelle Ansätze sich größtenteils darauf verlagert, die Stärken von RAG und leistungsfähigen feinabgestimmten Modellen wie [ChatGPT](https://www.promptingguide.ai/models/chatgpt) und [Mixtral](https://www.promptingguide.ai/models/mixtral) zu kombinieren. Das folgende Diagramm zeigt die Entwicklung der RAG-bezogenen Forschung:
!["RAG Framework"](../../img/rag/rag-evolution.png)
*[Bildquelle](https://arxiv.org/abs/2312.10997)*
Unten ist ein typischer RAG-Anwendungsworkflow dargestellt:
!["RAG Framework"](../../img/rag/rag-process.png)
*[Bildquelle](https://arxiv.org/abs/2312.10997)*
Wir können die verschiedenen Schritte/Komponenten wie folgt erklären:
- **Input:** Die Frage, auf die das LLM-System antwortet, wird als Eingabe bezeichnet. Wenn kein RAG verwendet wird, wird das LLM direkt verwendet, um auf die Frage zu antworten.
@ -35,6 +37,7 @@ Im gezeigten Beispiel scheitert die direkte Verwendung des Modells daran, auf di
In den letzten Jahren haben sich RAG-Systeme von Naive RAG zu Advanced RAG und Modular RAG entwickelt. Diese Entwicklung fand statt, um bestimmte Einschränkungen bezüglich der Leistung, der Kosten und der Effizienz zu adressieren.
!["RAG Framework"](../../img/rag/rag-paradigms.png)
*[Bildquelle](https://arxiv.org/abs/2312.10997)*
### Naive RAG
Naive RAG folgt dem traditionellen zuvor erwähnten Prozess der Indizierung, des Retrievals und der Generierung. Kurz gesagt, eine Benutzereingabe wird verwendet, um relevante Dokumente abzufragen, die dann mit einem Prompt kombiniert und dem Modell übergeben werden, um eine endgültige Antwort zu generieren. Konversationshistorie kann in den Prompt integriert werden, wenn die Anwendung Interaktionen in mehreren Schritten umfasst.
@ -103,6 +106,7 @@ Der Generator in einem RAG-System ist für die Umwandlung abgerufener Informatio
Augmentierung beinhaltet den Prozess der effektiven Integration von Kontext aus abgerufenen Passagen mit der aktuellen Generierungsaufgabe. Bevor wir näher auf den Augmentierungsprozess, die Augmentierungsstufen und die Augmentierungsdaten eingehen, hier ist eine Taxonomie von RAGs Kernkomponenten:
!["RAG Taxonomy"](../../img/rag/rag-taxonomy.png)
*[Bildquelle](https://arxiv.org/abs/2312.10997)*
Retrieval Augmentation kann in vielen verschiedenen Phasen wie Vor-Training, Fine-Tuning und Inferenz angewandt werden.
@ -118,15 +122,18 @@ Retrieval Augmentation kann in vielen verschiedenen Phasen wie Vor-Training, Fin
Die folgende Abbildung zeigt eine detaillierte Darstellung der RAG-Forschung mit verschiedenen Augmentierungsaspekten, einschließlich der Augmentierungsphasen, -quelle und -prozess.
!["RAG Augmentierungsaspekte"](../../img/rag/rag-augmentation.png)
*[Bildquelle](https://arxiv.org/abs/2312.10997)*
### RAG vs. Fine-Tuning
Es gibt viele offene Diskussionen über den Unterschied zwischen RAG und Fine-Tuning und in welchen Szenarien jedes angemessen ist. Forschungen in diesen beiden Bereichen deuten darauf hin, dass RAG nützlich ist, um neues Wissen zu integrieren, während Fine-Tuning verwendet werden kann, um die Leistung und Effizienz des Modells durch Verbesserung des internen Wissens, des Ausgabeformats und des Lehrens komplexer Befehlsfolgen zu verbessern. Diese Ansätze schließen sich nicht gegenseitig aus und können sich in einem iterativen Prozess, der darauf abzielt, die Nutzung von LLMs für komplexe wissensintensive und skalierbare Anwendungen zu verbessern, ergänzen, die Zugang zu schnell entwickelndem Wissen erfordern und angepasste Antworten liefern, die ein bestimmtes Format, einen Ton und Stil befolgen. Zudem kann auch das Engineering von Prompts helfen, Ergebnisse durch Nutzung der inhärenten Fähigkeiten des Modells zu optimieren. Unten ist eine Abbildung, die die verschiedenen Charakteristiken von RAG im Vergleich zu anderen Modell-Optimierungsmethoden zeigt:
!["RAG Optimierung"](../../img/rag/rag-optimization.png)
*[Bildquelle](https://arxiv.org/abs/2312.10997)*
Hier ist eine Tabelle aus dem Survey-Paper, das die Merkmale zwischen RAG- und feinabgestimmten Modellen vergleicht:
!["RAG Augmentierungsaspekte"](../../img/rag/rag-vs-finetuning.png)
*[Bildquelle](https://arxiv.org/abs/2312.10997)*
## RAG Bewertung
@ -137,6 +144,7 @@ Ziele der RAG-Bewertung werden sowohl für das Abrufen als auch für die Generie
Die Bewertung eines RAG-Frameworks konzentriert sich auf drei primäre Qualitätsscores und vier Fähigkeiten. Qualitätsscores umfassen das Messen der Kontextrelevanz (d.h. die Präzision und Spezifität des abgerufenen Kontexts), Antworttreue (d.h. die Treue der Antworten zum abgerufenen Kontext) und Antwortrelevanz (d.h. die Relevanz der Antworten auf gestellte Fragen). Zusätzlich gibt es vier Fähigkeiten, die helfen, die Anpassungsfähigkeit und Effizienz eines RAG-Systems zu messen: Geräuschrobustheit, Ablehnung negativer Informationen, Informationsintegration und kontrafaktische Robustheit. Unten ist eine Zusammenfassung der Metriken, die für die Bewertung verschiedener Aspekte eines RAG-Systems verwendet werden:
!["RAG Augmentierungsaspekte"](../../img/rag/rag-metrics.png)
*[Bildquelle](https://arxiv.org/abs/2312.10997)*
Mehrere Benchmarks wie [RGB](https://arxiv.org/abs/2309.01431) und [RECALL](https://arxiv.org/abs/2311.08147) werden verwendet, um RAG-Modelle zu bewerten. Viele Tools wie [RAGAS](https://arxiv.org/abs/2309.15217), [ARES](https://arxiv.org/abs/2311.09476) und [TruLens](https://www.trulens.org/trulens_eval/core_concepts_rag_triad/) wurden entwickelt, um den Prozess der Bewertung von RAG-Systemen zu automatisieren. Einige der Systeme verlassen sich auf LLMs, um einige der oben definierten Qualitätsscores zu bestimmen.
@ -166,8 +174,6 @@ Abschließend haben sich RAG-Systeme schnell entwickelt, einschließlich der Ent
---
*Quellen der Abbildungen: [Retrieval-Augmented Generation for Large Language Models: A Survey](https://arxiv.org/abs/2312.10997)*
## RAG Forschungsergebnisse
Unten finden Sie eine Sammlung von Forschungsarbeiten, die wichtige Erkenntnisse und die neuesten Entwicklungen im Bereich RAG hervorheben.

@ -0,0 +1,27 @@
# Überlegungen mit Zwischenrevision und Suche für LLMs
import {Bleed} from 'nextra-theme-docs'
<Bleed>
<iframe width="100%"
height="415px"
src="https://www.youtube.com/embed/13fr5m6ezOM?si=DH3XYfzbMsg9aeIx" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
allowFullScreen
/>
</Bleed>
Diese Arbeit von [Chi et al. (2024)](https://arxiv.org/abs/2404.05966) stellt einen Ansatz für allgemeines Überlegen und Suchen bei Aufgaben vor, die in Komponenten zerlegt werden können.
Das vorgeschlagene, auf Graphen basierende Framework, THOUGHTSCULPT, integriert iterative Selbstüberprüfungsfähigkeiten und ermöglicht es einem LLM, ein verwobenes Netzwerk von Gedanken aufzubauen.
Anders als bei anderen Ansätzen, wie dem Baum der Gedanken, die den Überlegungsprozess mithilfe eines Baumes formen, integriert dieser neue Ansatz Monte Carlo Tree Search (MCTS), um den Suchraum effizient zu navigieren.
Diese neue Methode verwendet einen von einem LLM betriebenen Gedankenbewerter, um Feedback zu Kandidaten partieller Outputs zu geben. Anschließend produziert eine Gedankengenerator-Komponente potenzielle Lösungen. Der Gedankenbewerter und der Gedankengenerator sind als Expansionsphase zu betrachten, die bei der Verfeinerung der aktuellen Lösung hilft.
!["ThoughtSculpt"](../../img/research/thoughtsculpt.png)
Schließlich simuliert der Entscheidungssimulator (der als Teil des MCTS-Prozesses agiert) aufeinanderfolgende Gedankenlinien, um den potenziellen Wert eines Pfades zu bewerten.
Aufgrund seiner Fähigkeit zur kontinuierlichen Gedankeniteration eignet sich THOUGHTSCULPT besonders für Aufgaben wie offene Generierung, mehrstufiges Überlegen und kreative Ideenfindung.
Wir könnten in Zukunft fortschrittlichere Ansätze sehen, die ähnliche Konzepte und Suchalgorithmen verwenden, um die Überlegungsfähigkeiten von LLMs zu erhöhen und die Fähigkeit, Probleme zu lösen, die komplexes Überlegen und Planen erfordern. Ein großartiges Paper, um diesen Forschungstrend im Auge zu behalten.
Loading…
Cancel
Save