企业微信
悟空CRM  >   公司新闻  >  数学推理能力超过ChatGPT-3.5:微软与北大研究人员合作的开源大模型WizardMath发布!开源模型第一,免费商用授权

数学推理能力超过ChatGPT-3.5:微软与北大研究人员合作的开源大模型WizardMath发布!开源模型第一,免费商用授权

悟空软件 阅读次数:440 次浏览

WizardLM是微软联合国内人员(非北大,更正下)京大学开源的一个大语言模型。此前,发布的WizardLM和WizardCoder都是业界开源领域最强的大模型。其中,前者是针对指令优化的大模型,而后者则是针对编程优化的大模型。而此次WizardMath则是他们发布的第三个大模型系列,主要是针对数学推理优化的大模型。在GSM8K的评测上,WizardMath得分超过了ChatGPT-3.5、Claude Instant-1等闭源商业模型,得分十分逆天!

WizardMath简介

WizardMath的评测结果

WizardMath在GSM8K的评测结果中超过了ChatGPT-3.5

WizardMath在MATH的评测结果

WizardMath在线测试地址和其它信息

Wizard其它的资源

WizardMath简介

WizardMath是微软与国内研究人员的研究人员联合开源的一个针对数学推理优化的大模型。这其实是他们发布的WizardLM系列模型中的第三种。

在2023年4月份,研究人员发布了WizardLM。这个模型是基于Evol-Instruct方法微调得到的,是一个使用人工指令数据(如InstructGPT)来提升大语言模型(LLM)的指令执行能力的大模型。

简单来说WizardLM系列模型就是用一个小规模初始指令数据集来进行进一步扩展,扩展的方式就是针对每个指令,随机选择In-Depth演化或In-Breadth演化中的一种方式进行演化。In-Depth是使用特定prompt对给定指令进行加限制、深化等操作得到更复杂版本。In-Breadth是基于给定指令生成新指令。反复这个过程之后就可以获得足够数量和难度分布均匀的指令数据。进而可以用来进一步微调大模型。

WizardLM就是基于上述方法微调得到的。在公开的评测结果种,该方法的效果大约是ChatGPT的90%的水平。在后续的研究中,他们进一步发布了WizardLM-70B(基于最新的LLaMA2微调)和编程大模型WizardCoder-15B(基于StarCoder微调)。效果都十分优秀。

本次发布的WizardMath则是基于LLaMA-2微调,针对数学推理优化的大模型。WizardMath一经推出就引起了广泛的讨论,主要原因在于该模型在GSM8K的评测结果上超过了ChatGPT-3.5,以及所有的开源模型,这是迄今为止,开源模型在数学推理任务上取得的最好的进展。

WizardMath的评测结果

目前,WizardMath没有放出具体的论文信息(WizardMath论文下周发布,WizardMath基于改进后的Evol-Instruct方法,名为Reinforced Evol-Instruct),但是评测结果和预训练结果都已经开源。由于WizardMath系列是基于LLaMA2模型微调的,得益于最新的LLaMA2可商用开源协议,该模型也是可以免费商用的。

目前,官方给出的评测结果包含2个,一个是OpenAI的GSM8K评测,一个是MATH评测。官方宣称,他们的评测结果绝对可复现,十分霸气!

❗❗❗Note: This performance is 100% reproducible! If you cannot reproduce it, please follow the steps in Evaluation.

WizardMath在GSM8K的评测结果中超过了ChatGPT-3.5

GSM8K是OpenAI推出的一个包含8500个中学水平的高质量数学题数据集。该数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。也是目前大模型的数学推理评测最有影响力的数据。

根据官方给出的评测结果,GSM8K的评测上,WizardMath在所有模型的排行中排名第五,其GSM8K的水平超过所有开源大模型和ChatGPT-3.5、Claude-Instant-1,十分显著!

WizardMath在MATH的评测结果

MATH是UC Berkeley提出的一个用于评估机器学习模型的数学问题解决能力的数据集,与GSM8K类似,但是包含了12500道高中数学竞赛题,每道题都有详细的步骤化解法。MATH数据集目前对现有模型仍非常具挑战性。

官方给出的MATH评测结果中,最好的模型是GPT-4,得分42.5。闭源模型排名靠前的是谷歌家的PaLM2系列和ChatGPT,都是30多分。而开源模型中,最高的只有LLaMA2-70B,只有13.5分,而基于LLaMA2微调的WizardMath-70B则达到了22.7分!提升效果十分明显!

WizardMath的详细得分如下:

WizardMath在线测试地址和其它信息

官方在几个小时前曾经提供了一个WizardMath-7B的在线demo网站,我测试了一下效果还不错。不过现在已经挂了。

地址:http://47.103.63.15:50080/

等待恢复后大家可以使用。

WizardMath的作者透露,这个模型使用了一个全新的方法来调优模型,使得其效果好了很多,但是具体细节可能要看下周公布的论文结果了。我们随时保持关注。

WizardMath包含3个版本,分别是WizardLM-70B、WizardLM-13和WizardLM-7B,均是基于LLaMA2的模型微调得到,因此也都是开源的免费商用授权,十分友好~

Wizard其它的资源

WizardLM-70B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardLM-70B-V1

WizardMath-70B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardMath-70B-V1

WizardMath-13B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardMath-13B-V1

WizardMath-7B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardMath-7B-V1

 

 

 

悟空CRM产品更多介绍:www.5kcrm.com

相关内容

CRM在商业中的使用有哪些?

CRM在商业中的使用有哪些?CRM在商业当中使用得比较广泛,涵盖的领域也比较多,所以,很多人都希望可以知道它在商业当中具体被用在哪些方面,那么,CRM在商业中的使用具体体现在哪些方面呢?接下来和悟空CRM一起来看看答案。1、销售管理。CRM可以被用在收集、分类、评分和分配销售线索,帮助销售人员优先关注最有可能成为成交的潜在客户,同时,它的销售流程也可以实现自动化,还能够预测和进行绩效管理。2、市场
相关文章

客户服务系统是什么?有什么重要性?

客户服务系统相信很多企业管理者都不会觉得陌生,但是,他们往往对这个系统的相关情况也不熟悉,所以,他们会问:客户服务系统是什么?有什么重要性呢?下面就和悟空CRM一起来了解这两个问题的答案。客户服务系统是什么客户服务系统是一种用在管理和优化企业以及客户之间互动的技术解决方案,这类型的解决方案包含有很多工具和程序,作用在于能够让客户体验得到提升,也能够让客户满意度增加,除此以外,它还能够让企业的运营效
相关文章

本地化部署CRM软件有哪些厂家?为什么选择悟空CRM?

本地化部署CRM软件的好处在于它可以在企业自己的服务器上运行和使用,并不需要在云服务提供商的服务器上面使用,这样就能够确保数据安全性,也能够达到企业更好控制数据的效果,所以,很多大型企业都会考虑使用这样的软件满足企业的管理需求。那么,本地化部署CRM软件有哪些厂家呢?为什么选择悟空CRM呢?下面就一起来看看答案。本地化部署CRM软件有哪些厂家1、悟空CRM。悟空CRM相信很多国内企业管理者都听说过
相关文章

解码神器:诉讼案件管理工具的功能与作用探析

当我们面对复杂的法律纠纷和冗长的诉讼流程时,一款高效的诉讼案件管理工具就如同一盏明灯,为我们照亮前行的道路。那么,这样的工具究竟有何神通广大之处呢?让我们一起揭秘其功能与作用。1. 组织与跟踪案件信息就像你的个人助手一样,诉讼案件管理工具能帮你整理所有的案件细节。从起诉状到判决书,从证人名单到法庭日期,所有重要信息都能一目了然地存储和更新,确保你不会错过任何关键步骤。2. 提升效率与准确性传统的手
相关文章

本地化部署CRM软件与SaaS化CRM的优缺点是什么?

很多企业在选择crm系统时候,往往会因为不知道自己应该选择本地化CRM软件还是Saas化CRM而烦恼,所以,他们希望能够知道二者的优缺点是怎样的。通过了解优缺点来判断哪一种系统更适合自己选择。那么,本地化部署CRM软件与SaaS化CRM的优缺点是什么?下面和小编一起来看看答案。本地化部署CRM软件与SaaS化CRM的优缺点本地化部署CRM软件的优缺点优点。本地化部署CRM软件的有点在于它的相关数据
相关文章

主流客户服务系统(可免费试用),腾讯使用的品牌

现在是数字化转型的时代,企业对客户服务系统也比较依赖,他们在选择这类型的系统时候都会考虑一些能够帮助提升客户体验、优化内部管理流程的大型系统,在面对市场上众多的系统时候,他们认为选择可免费试用的系统能够让自己更准确知道所选择的系统如何。那么,主流客户服务系统(可免费试用),腾讯使用的品牌到底是哪个呢?下面来看看答案。在众多的主流客户服务系统(可免费试用)当中,悟空CRM凭借着自身卓越的功能以及优秀
相关文章

客户CRM管理系统选型指南:主流工具哪家好?

对于企业管理者而言,选择到合适的客户CRM管理系统能够帮助优化企业销售、市场营销以及服务流程,它的重要性不言而喻,但是,面对市场上众多的客户CRM管理系统时候,很多企业管理者往往不知道自己到底应该选择什么样的产品才能够满足自己的企业CRM管理需求。那么,客户CRM管理系统选型指南是怎样的?主流工具哪家好呢?下面就一起来做了解。客户CRM管理系统选型指南1、功能需求。选择客户CRM管理系统时候,首先
相关文章

本地化部署CRM软件安全性如何?哪家品牌好?

有很多企业管理者都会结合自己企业的管理需求而选择CRM软件满足自己企业的仓储管理需求,有的人表示:自己在了解本地化部署CRM时候,得知这种部署方式是比较受关注的一种部署方式。但是,他们也会因为担心这种部署方式的安全性而烦恼不已。那么,本地化部署CRM软件安全性如何呢?本地化部署CRM软件哪家品牌好?下面就一起来做了解。本地化部署CRM软件安全性如何本地化部署CRM软件的安全性是值得肯定的,它能够提
相关文章

CRM外呼系统是什么?CRM外呼系统有什么重要性?

可能有的企业管理者听说过CRM外呼系统,但是,他们对这种系统的相关情况并不了解,甚至不知道这类型的系统到底是什么。那么,CRM外呼系统是什么?CRM外呼系统的功能?有什么重要性呢?下面就和悟空CRM一起来看看这两个问题的答案。CRM外呼系统是什么CRM外呼系统是一种集成在客户关系管理系统当中的工具,它专门设计用在管理企业和现有客户以及潜在客户之间的外呼活动,这类型的系统往往具备自动化呼叫、呼叫脚本
相关文章

外贸用哪些CRM外贸管理软件?出口企业专用的

外贸企业选择CRM系统的目的是为了让自己的企业客户管理工作变得更简单,但是,目前市场上的CRM外贸管理软件非常多,很多人都不知道应该选择什么样的CRM外贸管理软件才能够满足自己的企业管理需求。那么,外贸用哪些CRM外贸管理软件?出口企业专用的软件哪个好?外贸用哪些CRM外贸管理软件?1、悟空CRM。悟空CRM是一款专门为出口企业设计的CRM软件,本身有独特的功能和优势,主要体现在有全面的业务管理功
相关文章
最新文章

CRM在商业中的使用有哪些?

CRM在商业中的使用有哪些?CRM在商业当中使用得比较广泛,涵盖的领域也比较多,所以,很多人都希望可以知道它在商业当中具体被用在哪些方面,那么,CRM在商业中的使用具体体现在哪些方面呢?接下来和悟空CRM一起来看看答案。1、销售管理。CRM可以被用在收集、分类、评分和分配销售线索,帮助销售人员优先关注最有可能成为成交的潜在客户,同时,它的销售流程也可以实现自动化,还能够预测和进行绩效管理。2、市场
最新文章

客户服务系统是什么?有什么重要性?

客户服务系统相信很多企业管理者都不会觉得陌生,但是,他们往往对这个系统的相关情况也不熟悉,所以,他们会问:客户服务系统是什么?有什么重要性呢?下面就和悟空CRM一起来了解这两个问题的答案。客户服务系统是什么客户服务系统是一种用在管理和优化企业以及客户之间互动的技术解决方案,这类型的解决方案包含有很多工具和程序,作用在于能够让客户体验得到提升,也能够让客户满意度增加,除此以外,它还能够让企业的运营效
最新文章

本地化部署CRM软件有哪些厂家?为什么选择悟空CRM?

本地化部署CRM软件的好处在于它可以在企业自己的服务器上运行和使用,并不需要在云服务提供商的服务器上面使用,这样就能够确保数据安全性,也能够达到企业更好控制数据的效果,所以,很多大型企业都会考虑使用这样的软件满足企业的管理需求。那么,本地化部署CRM软件有哪些厂家呢?为什么选择悟空CRM呢?下面就一起来看看答案。本地化部署CRM软件有哪些厂家1、悟空CRM。悟空CRM相信很多国内企业管理者都听说过
最新文章

快速注册,立即使用

仅需一分钟,立即注册悟空云。悟空CRM免费试用。
客户端下载