Prompt-Engineering-Guide/pages/research/groq.zh.mdx
2024-05-05 11:21:10 +08:00

21 lines
2.2 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Groq 是什么?
[Groq](https://groq.com/) 最近因其作为当今最快的大型语言模型LLM推理解决方案之一而广受关注。LLM 实践者对于降低LLM响应的延迟非常感兴趣因为延迟是一个重要的性能指标它需要被优化以支持实时人工智能应用。目前许多公司都在LLM推理领域展开竞争。
Groq 是那些声称在 [Anyscale 的 LLMPerf 排行榜](https://github.com/ray-project/llmperf-leaderboard)上,比其他顶尖的基于云的服务提供商快 18 倍的公司之一。Groq 目前通过其 API 提供了 Meta AI 的 Llama 2 70B 和 Mixtral 8x7B 等模型。这些模型由 Groq LPU™ 推理引擎驱动,该引擎是基于他们为运行 LLM 特别设计的定制硬件——语言处理单元LPUs构建的。
根据 Groq 的常见问题解答LPU 有助于减少每个单词的计算时间,从而加快文本序列的生成。您可以在他们获得 ISCA 奖项的 [2020 年](https://wow.groq.com/groq-isca-paper-2020/)和 [2022 年](https://wow.groq.com/isca-2022-paper/) 的论文中,阅读有关 LPU 技术细节及其优势的更多信息。
以下是一张展示了他们模型的速度和定价的图表:
!["Groq 定价"](../../img/research/groq.png)
下面的图表比较了输出词元吞吐量Output Tokens Throughput词元/秒),这是衡量每秒返回的平均输出词元数的指标。图表中的数字代表了基于 150 个请求的 Llama 2 70B 模型上LLM 推理服务提供商的平均输出词元吞吐量。
!["LLMPerf 排行榜"](https://github.com/ray-project/llmperf-leaderboard/blob/main/.assets/output_tokens_per_s.jpg?raw=true)
对于流媒体应用而言LLM 推理的另一个重要因素是首个词元时间Time to First TokenTTFT它指的是 LLM 返回第一个词元所需的时间。以下图表展示了不同 LLM 推理服务提供商在这方面的表现:
!["首个词元时间(秒)"](https://github.com/ray-project/llmperf-leaderboard/blob/main/.assets/ttft.jpg?raw=true)
您可以在[此处](https://wow.groq.com/groq-lpu-inference-engine-crushes-first-public-llm-benchmark/) 阅读有关 Groq 在 Anyscale 的 LLMPerf 排行榜上的 LLM 推理性能的更多信息。