Update mixtral.ru.mdx

pull/412/head
ThunderCat 8 months ago committed by GitHub
parent 7b2609658c
commit 064bcd9656
No known key found for this signature in database
GPG Key ID: B5690EEEBB952194

@ -23,10 +23,18 @@ Mixtral 8x7B представляет собой языковую модель S
<Screenshot src={mixtralexperts} alt="Mixtral of Experts Layer" />
Учитывая, что Mixtral является SMoE, он имеет в общей сложности 47 миллиардов параметров, но во время вывода использует только 13 миллиардов на токен. Преимущества этого подхода включают лучший контроль стоимости и задержки, поскольку он использует только часть общего набора параметров для каждого токена. Mixtral обучался на открытых веб-данных в размере контекста в 32 токена. Сообщается, что Mixtral превосходит Llama 2 80B с в 6 раз более быстрым выводом и соответствует или превосходит [GPT-3.5](https://www.promptingguide.ai/models/chatgpt) по нескольким критериям.
Учитывая, что Mixtral является SMoE, он имеет в общей сложности 47 миллиардов параметров, но во время вывода использует только 13 миллиардов на токен. Преимущества этого подхода включают лучший контроль стоимости и задержки, поскольку он использует только часть общего набора параметров для каждого токена. Mixtral обучался на открытых веб-данных в размере контекста в 32 токена. Сообщается, что Mixtral превосходит Llama 2 80B с в 6 раз более быстрым выводом и соответствует или превосходит [GPT-3.5](https://www.promptingguide.ai/models/chatgpt) по нескольким тестированиям.
Модели Mixtral находятся [под лицензией Apache 2.0](https://github.com/mistralai/mistral-src#Apache-2.0-1-ov-file).
## Производительность и возможности Mixtral
Mixtral демонстрирует сильные способности в математических рассуждениях, генерации кода и многоязычных задачах. Он может работать с такими языками, как английский, французский, итальянский, немецкий и испанский. Mistral AI также выпустила модель Mixtral 8x7B Instruct, превосходящую GPT-3.5 Turbo, Claude-2.1, Gemini Pro, and Llama 2 70B модели по человеческим эталонам.
На рисунке ниже показано сравнение производительности моделей Llama 2 разных размеров в более широком диапазоне возможностей и тестов. Mixtral соответствует или превосходит Llama 2 70B и демонстрирует превосходную производительность в математических вычислениях и генерации кода.
<Screenshot src={mixtral1} alt="Mixtral Performance vs. Llama 2 Performance" />
This page needs a translation! Feel free to contribute a translation by clicking the `Edit this page` button on the right side.

Loading…
Cancel
Save