Merge branch 'main' into added_youtube_videos
commit
2be8f22bfc
@ -0,0 +1,49 @@
|
||||
# Llama 3
|
||||
|
||||
import {Bleed} from 'nextra-theme-docs'
|
||||
|
||||
Meta hat kürzlich ihre neue Familie großer Sprachmodelle (LLMs), genannt Llama 3, [vorgestellt](https://llama.meta.com/llama3/). Diese Veröffentlichung umfasst vorab trainierte und anweisungsoptimierte Modelle mit 8 Milliarden und 70 Milliarden Parametern.
|
||||
|
||||
## Architekturdetails zu Llama 3
|
||||
|
||||
Hier eine Zusammenfassung der technischen Details von Llama 3:
|
||||
|
||||
- Es verwendet einen standardmäßigen Decoder-only-Transformer.
|
||||
- Der Wortschatz umfasst 128K Token.
|
||||
- Es wird auf Sequenzen von 8K Token trainiert.
|
||||
- Es wendet gruppierte Abfrageaufmerksamkeit (GQA) an.
|
||||
- Es ist auf über 15T Token vorab trainiert.
|
||||
- Es beinhaltet eine Nachtrainierung, die eine Kombination aus SFT, Ablehnungs-Stichprobenentnahme, PPO und DPO einschließt.
|
||||
|
||||
## Leistung
|
||||
|
||||
Auffällig ist, dass Llama 3 8B (anweisungsoptimiert) [Gemma 7B](https://www.promptingguide.ai/models/gemma) und [Mistral 7B Instruct](https://www.promptingguide.ai/models/mistral-7b) übertrifft. Llama 3 70 übertrifft deutlich [Gemini Pro 1.5](https://www.promptingguide.ai/models/gemini-pro) und [Claude 3 Sonnet](https://www.promptingguide.ai/models/claude-3), bleibt jedoch beim MATH-Benchmark etwas hinter Gemini Pro 1.5 zurück.
|
||||
|
||||
!["Llama 3 Leistung"](../../img/llama3/llama-instruct-performance.png)
|
||||
*Quelle: [Meta AI](https://ai.meta.com/blog/meta-llama-3/)*
|
||||
|
||||
Die vorab trainierten Modelle übertreffen ebenfalls andere Modelle bei mehreren Benchmarks wie AGIEval (Englisch), MMLU und Big-Bench Hard.
|
||||
|
||||
!["Llama 3 Leistung"](../../img/llama3/llama3-pretrained-results.png)
|
||||
*Quelle: [Meta AI](https://ai.meta.com/blog/meta-llama-3/)*
|
||||
|
||||
## Llama 3 400B
|
||||
|
||||
Meta berichtete auch, dass sie ein Modell mit 400 Milliarden Parametern veröffentlichen werden, das derzeit noch trainiert wird und bald verfügbar sein soll! Es gibt auch Bemühungen um multimodale Unterstützung, mehrsprachige Fähigkeiten und längere Kontextfenster. Der aktuelle Checkpoint für Llama 3 400B (Stand 15. April 2024) liefert die folgenden Ergebnisse bei gängigen Benchmarks wie MMLU und Big-Bench Hard:
|
||||
|
||||
!["Llama 3 400B"](../../img/llama3/llama-400b.png)
|
||||
*Quelle: [Meta AI](https://ai.meta.com/blog/meta-llama-3/)*
|
||||
|
||||
Die Lizenzinformationen für die Llama 3 Modelle können auf der [Modellkarte](https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md) gefunden werden.
|
||||
|
||||
## Ausführliche Bewertung von Llama 3
|
||||
|
||||
Hier folgt eine längere Bewertung von Llama 3:
|
||||
|
||||
<Bleed>
|
||||
<iframe width="100%"
|
||||
height="415px"
|
||||
src="https://www.youtube.com/embed/h2aEmciRd6U?si=m7-xXu5IWpB-6mE0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
|
||||
allowFullScreen
|
||||
/>
|
||||
</Bleed>
|
@ -0,0 +1,28 @@
|
||||
# Mixtral 8x22B
|
||||
|
||||
Mixtral 8x22B ist ein neues offenes großes Sprachmodell (LLM), das von Mistral AI veröffentlicht wurde. Mixtral 8x22B wird als sparsames Mischmodell aus Experten charakterisiert, mit 39 Milliarden aktiven Parametern aus insgesamt 141 Milliarden Parametern.
|
||||
|
||||
## Fähigkeiten
|
||||
|
||||
Mixtral 8x22B wurde entwickelt, um ein kosteneffizientes Modell zu sein, mit Fähigkeiten, die mehrsprachiges Verständnis, mathematisches Denken, Codegenerierung, native Funktionsaufrufunterstützung und eingeschränkte Ausgabeunterstützung umfassen. Das Modell unterstützt eine Kontextfenstergröße von 64000 (64K) Token, was eine leistungsstarke Informationsabrufung bei großen Dokumenten ermöglicht.
|
||||
|
||||
Mistral AI behauptet, dass Mixtral 8x22B eines der besten Leistungs-Kosten-Verhältnisse unter den Community-Modellen bietet und aufgrund seiner sparsamen Aktivierungen deutlich schnell ist.
|
||||
|
||||
!["Mixtral 8x22B Leistung"](../../img/mixtral/mixtral-8-cost.png)
|
||||
*Quelle: [Mistral AI Blog](https://mistral.ai/news/mixtral-8x22b/)*
|
||||
|
||||
## Ergebnisse
|
||||
|
||||
Gemäß den [offiziell berichteten Ergebnissen](https://mistral.ai/news/mixtral-8x22b/) übertrifft Mixtral 8x22B (mit 39 Milliarden aktiven Parametern) andere Spitzenmodelle wie Command R+ und Llama 2 70B in mehreren Denk- und Wissensbenchmarks wie MMLU, HellaS, TriQA, NaturalQA unter anderen.
|
||||
|
||||
!["Mixtral 8x22B Denk- und Wissensleistung"](../../img/mixtral/mixtral-8-reasoning.png)
|
||||
*Quelle: [Mistral AI Blog](https://mistral.ai/news/mixtral-8x22b/)*
|
||||
|
||||
Mixtral 8x22B übertrifft alle offenen Modelle bei Programmier- und Mathematikaufgaben, wenn es anhand von Benchmarks wie GSM8K, HumanEval und Math bewertet wird. Es wird berichtet, dass Mixtral 8x22B Instruct eine Punktzahl von 90% auf GSM8K (maj@8) erreicht.
|
||||
|
||||
!["Mixtral 8x22B Denk- und Wissensleistung"](../../img/mixtral/mixtral-8-maths.png)
|
||||
*Quelle: [Mistral AI Blog](https://mistral.ai/news/mixtral-8x22b/)*
|
||||
|
||||
Weitere Informationen zu Mixtral 8x22B und dessen Nutzung finden Sie hier: https://docs.mistral.ai/getting-started/open_weight_models/#operation/listModels
|
||||
|
||||
Das Modell wird unter einer Apache 2.0-Lizenz veröffentlicht.
|
@ -0,0 +1,26 @@
|
||||
# LLM In-Context Recall hängt vom Prompt ab
|
||||
|
||||
import {Bleed} from 'nextra-theme-docs'
|
||||
|
||||
<Bleed>
|
||||
<iframe width="100%"
|
||||
height="415px"
|
||||
src="https://www.youtube.com/embed/2cNO76lIZ4s?si=tbbdo-vnr56YQ077" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
|
||||
allowFullScreen
|
||||
/>
|
||||
</Bleed>
|
||||
|
||||
Dieses neue [Paper von Machlab und Battle (2024)](https://arxiv.org/abs/2404.08865) analysiert die In-Context Recall-Leistung verschiedener LLMs anhand mehrerer Nadel-im-Heuhaufen-Tests.
|
||||
|
||||
Es zeigt, dass verschiedene LLMs Fakten auf unterschiedlichen Längen und in verschiedener Tiefe erinnern. Es stellt fest, dass die Recall-Leistung eines Modells erheblich durch kleine Änderungen im Prompt beeinflusst wird.
|
||||
|
||||
!["Needle In the HayStack Performance"](../../img/research/haystack-performance.png)
|
||||
*Quelle: [Machlab und Battle (2024)](https://arxiv.org/abs/2404.08865)*
|
||||
|
||||
Darüber hinaus kann das Zusammenspiel zwischen Prompt-Inhalt und Trainingsdaten die Antwortqualität verschlechtern.
|
||||
|
||||
Die Recall-Fähigkeit eines Modells kann durch Vergrößerung, Verbesserung des Attention-Mechanismus, das Ausprobieren verschiedener Trainingsstrategien und das Anwenden von Fine-Tuning verbessert werden.
|
||||
|
||||
Wichtiger praktischer Tipp aus dem Paper: „Die fortlaufende Bewertung wird die Auswahl von LLMs für individuelle Anwendungsfälle weiter informieren, ihre Wirkung und Effizienz in realen Anwendungen maximieren, da die Technologie weiterhin fortschreitet.“
|
||||
|
||||
Die wichtigsten Erkenntnisse aus diesem Paper sind die Bedeutung einer sorgfältigen Gestaltung des Prompts, die Einrichtung eines kontinuierlichen Bewertungsprotokolls und das Testen verschiedener Modellverbesserungsstrategien, um Recall und Nutzen zu verbessern.
|
@ -0,0 +1,26 @@
|
||||
# Wie zuverlässig sind RAG-Modelle?
|
||||
|
||||
import {Bleed} from 'nextra-theme-docs'
|
||||
|
||||
<Bleed>
|
||||
<iframe width="100%"
|
||||
height="415px"
|
||||
src="https://www.youtube.com/embed/eEU1dWVE8QQ?si=b-qgCU8nibBCSX8H" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
|
||||
allowFullScreen
|
||||
/>
|
||||
</Bleed>
|
||||
|
||||
Dieses neue Paper von [Wu et al. (2024)](https://arxiv.org/abs/2404.10198) zielt darauf ab, das Kräftemessen zwischen den RAG-Modellen und der internen Priorisierung von LLMs zu quantifizieren.
|
||||
|
||||
Es konzentriert sich dabei auf GPT-4 und andere LLMs bei der Beantwortung von Fragen zur Analyse.
|
||||
|
||||
Es wurde festgestellt, dass das Bereitstellen korrekter abgerufener Informationen die meisten Fehler des Modells korrigiert (94% Genauigkeit).
|
||||
|
||||
!["RAG Treue"](../../img/research/rag-faith.png)
|
||||
*Quelle: [Wu et al. (2024)](https://arxiv.org/abs/2404.10198)*
|
||||
|
||||
Wenn die Dokumente mehr falsche Werte enthalten und das interne Priorisieren des LLM schwach ist, neigt das LLM eher dazu, falsche Informationen wiederzugeben. Es wurde jedoch festgestellt, dass die LLMs widerstandsfähiger sind, wenn sie eine stärkere Vorprägung haben.
|
||||
|
||||
Das Paper berichtet auch, dass „je mehr die modifizierte Information von der Vorprägung des Modells abweicht, desto unwahrscheinlicher ist es, dass das Modell sie bevorzugt.“
|
||||
|
||||
Viele Entwickler und Unternehmen setzen RAG-Systeme in der Produktion ein. Diese Arbeit hebt die Bedeutung der Risikobewertung bei der Verwendung von LLMs hervor, die verschiedene Arten von Kontextinformationen enthalten können, die unterstützende, widersprüchliche oder völlig inkorrekte Informationen enthalten können.
|
@ -0,0 +1,11 @@
|
||||
# 语言模型合成数据的实用技巧与经验
|
||||
|
||||
这篇[论文](https://arxiv.org/abs/2404.07503)总结了语言模型合成数据的实用技巧与经验,由 Google DeepMind 及其他合作者共同发表。
|
||||
|
||||
该论文聚焦于合成数据,探讨了其在应用、挑战以及未来发展方向上的作用。鉴于 AI 领域合成数据带来的显著进步,这是一篇非常重要的论文。
|
||||
|
||||
我们深知,向模型提供高质量的数据越多,它们的性能就越好。然而,创建合成数据并不困难,真正的挑战在于确保其质量。
|
||||
|
||||
此外,该论文还讨论了在使用合成数据时需要关注的重要话题,如数据质量、事实性、忠实度、无偏见性、可信度、隐私等。
|
||||
|
||||
相关工作部分也列举了许多有价值的参考文献。
|
@ -1,3 +1,45 @@
|
||||
# Tree of Thoughts (ToT)
|
||||
|
||||
This page needs a translation! Feel free to contribute a translation by clicking the `Edit this page` button on the right side.
|
||||
import { Callout, FileTree } from 'nextra-theme-docs'
|
||||
import {Screenshot} from 'components/screenshot'
|
||||
import TOT from '../../img/TOT.png'
|
||||
import TOT2 from '../../img/TOT2.png'
|
||||
import TOT3 from '../../img/TOT3.png'
|
||||
|
||||
Pour des tâches complexes qui nécessitent une exploration ou une anticipation stratégique, les techniques de prompt traditionnelles ou simples sont insuffisantes. [Yao et al. (2023)](https://arxiv.org/abs/2305.10601) et [Long (2023)](https://arxiv.org/abs/2305.08291) ont récemment proposé "Tree of Thoughts" (ToT), un framework qui généralise le prompt "chain-of-thought" et encourage l'exploration à travers des pensées qui servent d'étapes intermédiaires pour la résolution de problèmes généraux avec des modèles de langage.
|
||||
|
||||
ToT maintient un arbre de pensées, où les pensées représentent des séquences de langage cohérentes qui servent d'étapes intermédiaires vers la résolution d'un problème. Cette approche permet à un LLM d'auto-évaluer les progrès à travers les pensées intermédiaires réalisées vers la résolution d'un problème grâce à un processus de raisonnement délibéré. La capacité du LLM à générer et évaluer les pensées est ensuite combinée avec des algorithmes de recherche (par exemple, recherche en largeur et recherche en profondeur) pour permettre une exploration systématique des pensées avec anticipation et retour en arrière.
|
||||
|
||||
Le framework ToT est illustré ci-dessous :
|
||||
|
||||
<Screenshot src={TOT} alt="TOT" />
|
||||
Source de l'image : [Yao et al. (2023)](https://arxiv.org/abs/2305.10601)
|
||||
|
||||
Lors de l'utilisation de ToT, différentes tâches nécessitent de définir le nombre de candidats et le nombre de pensées/étapes. Par exemple, comme démontré dans l'article, le Jeu des 24 est utilisé comme une tâche de raisonnement mathématique qui nécessite de décomposer les pensées en 3 étapes, chacune impliquant une équation intermédiaire. À chaque étape, les 5 meilleurs candidats sont conservés.
|
||||
|
||||
Pour effectuer une recherche en largeur dans ToT pour la tâche du Jeu des 24, le LLM est invité à évaluer chaque candidat de pensée comme "sûr/peut-être/impossible" par rapport à l'objectif d'atteindre 24. Comme l'indiquent les auteurs, "l'objectif est de promouvoir des solutions partielles correctes qui peuvent être jugées dans quelques essais, d'éliminer les solutions partielles impossibles en se basant sur le bon sens 'trop grand/petit', et de garder les 'peut-être'". Les valeurs sont échantillonnées 3 fois pour chaque pensée. Le processus est illustré ci-dessous :
|
||||
|
||||
<Screenshot src={TOT2} alt="TOT2" />
|
||||
Source de l'image : [Yao et al. (2023)](https://arxiv.org/abs/2305.10601)
|
||||
|
||||
D'après les résultats rapportés dans la figure ci-dessous, ToT surpasse considérablement les autres méthodes de prompt :
|
||||
|
||||
<Screenshot src={TOT3} alt="TOT3" />
|
||||
Source de l'image : [Yao et al. (2023)](https://arxiv.org/abs/2305.10601)
|
||||
|
||||
Code disponible [ici](https://github.com/princeton-nlp/tree-of-thought-llm) et [ici](https://github.com/jieyilong/tree-of-thought-puzzle-solver)
|
||||
|
||||
À un niveau plus élevé, les idées principales de [Yao et al. (2023)](https://arxiv.org/abs/2305.10601) et [Long (2023)](https://arxiv.org/abs/2305.08291) sont similaires. Les deux améliorent la capacité des LLM à résoudre des problèmes complexes par la recherche d'arbres via une conversation en plusieurs tours. Une des principales différences est que [Yao et al. (2023)](https://arxiv.org/abs/2305.10601) utilise la recherche via parcours en largeur/profondeur/par faisceaux, tandis que la stratégie de recherche d'arbres (c'est-à-dire quand revenir en arrière et revenir en arrière de combien de niveaux, etc.) proposée dans [Long (2023)](https://arxiv.org/abs/2305.08291) est pilotée par un "Contrôleur ToT" formé par apprentissage par renforcement (RL). La recherche via parcours en largeur/profondeur/par faisceaux sont des stratégies génériques de recherche de solutions sans adaptation à des problèmes spécifiques. En comparaison, un Contrôleur ToT formé par RL pourrait apprendre à partir d'un nouvel ensemble de données ou par auto-apprentissage (AlphaGo vs recherche par force brute), et donc le système ToT basé sur RL peut continuer à évoluer et apprendre de nouvelles connaissances même avec un LLM fixe.
|
||||
|
||||
[Hulbert (2023)](https://github.com/dave1010/tree-of-thought-prompting) a proposé le "Tree-of-Thought Prompting", qui applique le concept principal des frameworks ToT comme une technique de prompt simple, amenant le LLM à évaluer les pensées intermédiaires dans un seul prompt. Un exemple de prompt ToT est :
|
||||
|
||||
```
|
||||
Imaginez que trois experts différents répondent à cette question.
|
||||
Tous les experts écriront 1 étape de leur réflexion,
|
||||
puis la partageront avec le groupe.
|
||||
Ensuite, tous les experts passeront à l'étape suivante, etc.
|
||||
Si un expert se rend compte qu'il a tort à un moment donné, alors il part.
|
||||
La question est...
|
||||
```
|
||||
|
||||
[Sun (2023)](https://github.com/holarissun/PanelGPT) a évalué le "Tree-of-Thought Prompting" avec des expériences à grande échelle, et introduit PanelGPT --- une idée du prompting avec des tables rondes entre LLM.
|
||||
|
Loading…
Reference in New Issue