thoughsculpt (German translation)

pull/456/head
Erik Behrends 1 month ago
parent 860f4c187e
commit 39a0743b87

@ -2,6 +2,8 @@
"llm-agents": "LLM Agenten",
"rag": "RAG für LLMs",
"llm-reasoning": "LLM Reasoning",
"thoughtsculpt": "ThoughtSculpt",
"infini-attention": "Infini-Attention",
"trustworthiness-in-llms": "Vertrauenswürdigkeit in LLMs",
"llm-tokenization": "LLM Tokenisierung",
"groq": "Was ist Groq?"

@ -0,0 +1,27 @@
# Effiziente Infinite Context Transformer
import {Bleed} from 'nextra-theme-docs'
<Bleed>
<iframe width="100%"
height="415px"
src="https://www.youtube.com/embed/tOaTaQ8ZGRo?si=pFP-KiLe63Ppl9Pd" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
allowFullScreen
/>
</Bleed>
Ein neues [Paper](https://arxiv.org/abs/2404.07143) von Google integriert kompressiven Speicher in eine Vanilla Dot-Product Attention-Schicht.
Das Ziel ist es, Transformer-LLMs zu ermöglichen, effektiv unendlich lange Eingaben mit begrenztem Speicherbedarf und Rechenaufwand zu verarbeiten.
Sie schlagen eine neue Aufmerksamkeitstechnik vor, die als Infini-Attention bezeichnet wird, welche eine kompressive Speichereinheit in einen Vanilla-Aufmerksamkeitsmechanismus einbaut.
!["Infini-Attention"](../../img/research/infini-attention.png)
Es kombiniert sowohl maskierte lokale Aufmerksamkeit als auch langfristige lineare Aufmerksamkeit in einem einzigen Transformer-Block. Dies ermöglicht es dem Infini-Transformer-Modell, effizient sowohl lang- als auch kurzreichende Kontextabhängigkeiten zu handhaben.
Dieser Ansatz übertrifft Basismodelle beim langkontextuellen Sprachmodellieren mit einem Speicherkompressionsverhältnis von 114x!
Sie zeigen auch, dass ein 1B LLM natürlich auf eine Sequenzlänge von 1M skaliert werden kann und ein 8B-Modell ein neues SoTA-Ergebnis bei einer Buchzusammenfassungsaufgabe mit einer Länge von 500K erreicht.
Angesichts der wachsenden Bedeutung von langkontextuellen LLMs könnte ein effektives Speichersystem leistungsstarke Fähigkeiten im Bereich des Schlussfolgerns, Planens, der kontinuierlichen Anpassung und bisher in LLMs nicht gesehene Fähigkeiten freisetzen.

@ -0,0 +1,27 @@
# Überlegungen mit Zwischenrevision und Suche für LLMs
import {Bleed} from 'nextra-theme-docs'
<Bleed>
<iframe width="100%"
height="415px"
src="https://www.youtube.com/embed/13fr5m6ezOM?si=DH3XYfzbMsg9aeIx" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
allowFullScreen
/>
</Bleed>
Diese Arbeit von [Chi et al. (2024)](https://arxiv.org/abs/2404.05966) stellt einen Ansatz für allgemeines Überlegen und Suchen bei Aufgaben vor, die in Komponenten zerlegt werden können.
Das vorgeschlagene, auf Graphen basierende Framework, THOUGHTSCULPT, integriert iterative Selbstüberprüfungsfähigkeiten und ermöglicht es einem LLM, ein verwobenes Netzwerk von Gedanken aufzubauen.
Anders als bei anderen Ansätzen, wie dem Baum der Gedanken, die den Überlegungsprozess mithilfe eines Baumes formen, integriert dieser neue Ansatz Monte Carlo Tree Search (MCTS), um den Suchraum effizient zu navigieren.
Diese neue Methode verwendet einen von einem LLM betriebenen Gedankenbewerter, um Feedback zu Kandidaten partieller Outputs zu geben. Anschließend produziert eine Gedankengenerator-Komponente potenzielle Lösungen. Der Gedankenbewerter und der Gedankengenerator sind als Expansionsphase zu betrachten, die bei der Verfeinerung der aktuellen Lösung hilft.
!["ThoughtSculpt"](../../img/research/thoughtsculpt.png)
Schließlich simuliert der Entscheidungssimulator (der als Teil des MCTS-Prozesses agiert) aufeinanderfolgende Gedankenlinien, um den potenziellen Wert eines Pfades zu bewerten.
Aufgrund seiner Fähigkeit zur kontinuierlichen Gedankeniteration eignet sich THOUGHTSCULPT besonders für Aufgaben wie offene Generierung, mehrstufiges Überlegen und kreative Ideenfindung.
Wir könnten in Zukunft fortschrittlichere Ansätze sehen, die ähnliche Konzepte und Suchalgorithmen verwenden, um die Überlegungsfähigkeiten von LLMs zu erhöhen und die Fähigkeit, Probleme zu lösen, die komplexes Überlegen und Planen erfordern. Ein großartiges Paper, um diesen Forschungstrend im Auge zu behalten.
Loading…
Cancel
Save