数学推理能力超过ChatGPT-3.5：微软与北大研究人员合作的开源大模型WizardMath发布！开源模型第一，免费商用授权 -悟空CRM

悟空CRM > 公司新闻 > 数学推理能力超过ChatGPT-3.5：微软与北大研究人员合作的开源大模型WizardMath发布！开源模型第一，免费商用授权

数学推理能力超过ChatGPT-3.5：微软与北大研究人员合作的开源大模型WizardMath发布！开源模型第一，免费商用授权

悟空软件 2023-08-19 阅读次数：885 次浏览

WizardLM是微软联合国内人员（非北大，更正下）京大学开源的一个大语言模型。此前，发布的WizardLM和WizardCoder都是业界开源领域最强的大模型。其中，前者是针对指令优化的大模型，而后者则是针对编程优化的大模型。而此次WizardMath则是他们发布的第三个大模型系列，主要是针对数学推理优化的大模型。在GSM8K的评测上，WizardMath得分超过了ChatGPT-3.5、Claude Instant-1等闭源商业模型，得分十分逆天！

WizardMath简介

WizardMath的评测结果

WizardMath在GSM8K的评测结果中超过了ChatGPT-3.5

WizardMath在MATH的评测结果

WizardMath在线测试地址和其它信息

Wizard其它的资源

WizardMath简介

WizardMath是微软与国内研究人员的研究人员联合开源的一个针对数学推理优化的大模型。这其实是他们发布的WizardLM系列模型中的第三种。

在2023年4月份，研究人员发布了WizardLM。这个模型是基于Evol-Instruct方法微调得到的，是一个使用人工指令数据（如InstructGPT）来提升大语言模型（LLM）的指令执行能力的大模型。

简单来说WizardLM系列模型就是用一个小规模初始指令数据集来进行进一步扩展，扩展的方式就是针对每个指令，随机选择In-Depth演化或In-Breadth演化中的一种方式进行演化。In-Depth是使用特定prompt对给定指令进行加限制、深化等操作得到更复杂版本。In-Breadth是基于给定指令生成新指令。反复这个过程之后就可以获得足够数量和难度分布均匀的指令数据。进而可以用来进一步微调大模型。

WizardLM就是基于上述方法微调得到的。在公开的评测结果种，该方法的效果大约是ChatGPT的90%的水平。在后续的研究中，他们进一步发布了WizardLM-70B（基于最新的LLaMA2微调）和编程大模型WizardCoder-15B（基于StarCoder微调）。效果都十分优秀。

本次发布的WizardMath则是基于LLaMA-2微调，针对数学推理优化的大模型。WizardMath一经推出就引起了广泛的讨论，主要原因在于该模型在GSM8K的评测结果上超过了ChatGPT-3.5，以及所有的开源模型，这是迄今为止，开源模型在数学推理任务上取得的最好的进展。

WizardMath的评测结果

目前，WizardMath没有放出具体的论文信息（WizardMath论文下周发布，WizardMath基于改进后的Evol-Instruct方法，名为Reinforced Evol-Instruct），但是评测结果和预训练结果都已经开源。由于WizardMath系列是基于LLaMA2模型微调的，得益于最新的LLaMA2可商用开源协议，该模型也是可以免费商用的。

目前，官方给出的评测结果包含2个，一个是OpenAI的GSM8K评测，一个是MATH评测。官方宣称，他们的评测结果绝对可复现，十分霸气！

❗❗❗Note: This performance is 100% reproducible! If you cannot reproduce it, please follow the steps in Evaluation.

WizardMath在GSM8K的评测结果中超过了ChatGPT-3.5

GSM8K是OpenAI推出的一个包含8500个中学水平的高质量数学题数据集。该数据集比之前的数学文字题数据集规模更大，语言更具多样性，题目也更具挑战性。也是目前大模型的数学推理评测最有影响力的数据。

根据官方给出的评测结果，GSM8K的评测上，WizardMath在所有模型的排行中排名第五，其GSM8K的水平超过所有开源大模型和ChatGPT-3.5、Claude-Instant-1，十分显著！

WizardMath在MATH的评测结果

MATH是UC Berkeley提出的一个用于评估机器学习模型的数学问题解决能力的数据集，与GSM8K类似，但是包含了12500道高中数学竞赛题，每道题都有详细的步骤化解法。MATH数据集目前对现有模型仍非常具挑战性。

官方给出的MATH评测结果中，最好的模型是GPT-4，得分42.5。闭源模型排名靠前的是谷歌家的PaLM2系列和ChatGPT，都是30多分。而开源模型中，最高的只有LLaMA2-70B，只有13.5分，而基于LLaMA2微调的WizardMath-70B则达到了22.7分！提升效果十分明显！

WizardMath的详细得分如下：

WizardMath在线测试地址和其它信息

官方在几个小时前曾经提供了一个WizardMath-7B的在线demo网站，我测试了一下效果还不错。不过现在已经挂了。

地址：http://47.103.63.15:50080/

等待恢复后大家可以使用。

WizardMath的作者透露，这个模型使用了一个全新的方法来调优模型，使得其效果好了很多，但是具体细节可能要看下周公布的论文结果了。我们随时保持关注。

WizardMath包含3个版本，分别是WizardLM-70B、WizardLM-13和WizardLM-7B，均是基于LLaMA2的模型微调得到，因此也都是开源的免费商用授权，十分友好~

Wizard其它的资源

WizardLM-70B-V1.0的DataLearner信息卡地址：https://www.datalearner.com/ai-models/pretrained-models/WizardLM-70B-V1

WizardMath-70B-V1.0的DataLearner信息卡地址：https://www.datalearner.com/ai-models/pretrained-models/WizardMath-70B-V1

WizardMath-13B-V1.0的DataLearner信息卡地址：https://www.datalearner.com/ai-models/pretrained-models/WizardMath-13B-V1

WizardMath-7B-V1.0的DataLearner信息卡地址：https://www.datalearner.com/ai-models/pretrained-models/WizardMath-7B-V1

悟空CRM产品更多介绍：www.5kcrm.com

立即免费试用

免费注册悟空云

什么是CRM？概念、作用、价值、用途、使用方法

什么是CRM？一文全面看懂CRM（客户关系管理系统）

CRM是什么意思啊,主要是干什么的?(专业解析)

快速注册，立即使用

仅需一分钟，立即注册悟空云。悟空CRM免费试用。

客户端下载

移动办公

桌面客户端