哪个大模型API最具性价比？（截至20240623）

今年有不少国产大语言模型问世，根据各大评测榜单，部分模型的性能已经超越 GPT3.5，接近 GPT4 了。除了官方开发的大模型应用可供用户直接使用，各模型厂家也都提供大模型API服务供用户进一步 DIY。

官方应用为了吸引用户一般都是免费的，API 却价格不菲。那么，哪个大模型 API 最具性价比呢？

首先要量化大模型的性能。大模型的性能得分采用 LMSYS Chatbot Arena（chinese）、SuperBench、OpenCompass 三个大模型评测榜单的数据。以 GPT-4o-20240513 的得分为基准，用每个大模型的得分除以基准，得到相对于 GPT-4o 的性能得分。评测榜单中的每个单项分别计算相对性能得分，再取模型所有相对性能得分的平均数，用于性价比计算。这个相对性能意味着，在中文领域，某个大模型的性能可以达到 GPT-4o 的多少。

其次，大模型 API 的价格来自各厂家官方。国外大模型的价格可能随汇率有变动，但不影响最后的性价比排序，因为国外的大模型真的很贵。

最后，性价比计算采用（相对性能得分）除以（输入价格×0.2+输出价格×0.8）。与大模型对话中，一般输出 token 数量要远多余输入，所以取了个二八比例。

榜单得分和价格的搜集时间都是 2024 年 6 月 23 日。

各个大模型的性价比排序见下表 1。有些模型数据不全，因此只有价格或性能。大模型在评测榜单中的得分见表 2。

可以看到，论性价比，智谱的 GLM-4-AIR 遥遥领先，位列第一，具备 GPT-4o 89.7% 的性能，价格才 1 元/百万tokens，很适合不需要太强推理及代码的工作。深度求索的两个 DeepSeek 模型紧随其后，新出的 DeepSeek-Coder-V2 相对性能 94.98%，LMSYS Chatbot Arena 榜单上很能打，但输出价格高所以只能排第二。

表1↓

表2↓

预览: