From 132a6cdb9cd2af408cb8a69fa607f084a6f2f402 Mon Sep 17 00:00:00 2001 From: ThunderCat Date: Thu, 22 Feb 2024 17:47:49 +0300 Subject: [PATCH] Update mixtral.ru.mdx --- pages/models/mixtral.ru.mdx | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/pages/models/mixtral.ru.mdx b/pages/models/mixtral.ru.mdx index 7c75445..6d8be33 100644 --- a/pages/models/mixtral.ru.mdx +++ b/pages/models/mixtral.ru.mdx @@ -19,4 +19,8 @@ import mixtralchat from '../../img/mixtral/mixtral-chatbot-arena.png' ## Введение в Mixtral (Mixtral of Experts) +Mixtral 8x7B представляет собой языковую модель Sparse Mixture of Experts (SMoE). [выпущенную Mistral AI](https://mistral.ai/news/mixtral-of-experts/). Mixtral имеет схожую архитектуру с [Mistral 7B](https://www.promptingguide.ai/models/mistral-7b) но главное ращличие в том, что каждый слой в Mixtral 8x7B состоит из 8 блоков прямой связи (экспертов). Mixtral — это модель только для декодирования, в которой для каждого токена на каждом уровне сеть маршрутизаторов выбирает двух экспертов. (тоесть 2 группы из 8 различных групп параметров) для обработки токена объединяет их выходные данные путем сложения. Другими словами, выходные данные всего модуля MoE для данного входного сигнала получаются через взвешенную сумму выходных данных, произведенных экспертными сетями. + + + This page needs a translation! Feel free to contribute a translation by clicking the `Edit this page` button on the right side.