企业微信
悟空CRM  >   公司新闻  >  数学推理能力超过ChatGPT-3.5:微软与北大研究人员合作的开源大模型WizardMath发布!开源模型第一,免费商用授权

数学推理能力超过ChatGPT-3.5:微软与北大研究人员合作的开源大模型WizardMath发布!开源模型第一,免费商用授权

悟空软件 阅读次数:740 次浏览

WizardLM是微软联合国内人员(非北大,更正下)京大学开源的一个大语言模型。此前,发布的WizardLM和WizardCoder都是业界开源领域最强的大模型。其中,前者是针对指令优化的大模型,而后者则是针对编程优化的大模型。而此次WizardMath则是他们发布的第三个大模型系列,主要是针对数学推理优化的大模型。在GSM8K的评测上,WizardMath得分超过了ChatGPT-3.5、Claude Instant-1等闭源商业模型,得分十分逆天!

WizardMath简介

WizardMath的评测结果

WizardMath在GSM8K的评测结果中超过了ChatGPT-3.5

WizardMath在MATH的评测结果

WizardMath在线测试地址和其它信息

Wizard其它的资源

WizardMath简介

WizardMath是微软与国内研究人员的研究人员联合开源的一个针对数学推理优化的大模型。这其实是他们发布的WizardLM系列模型中的第三种。

在2023年4月份,研究人员发布了WizardLM。这个模型是基于Evol-Instruct方法微调得到的,是一个使用人工指令数据(如InstructGPT)来提升大语言模型(LLM)的指令执行能力的大模型。

简单来说WizardLM系列模型就是用一个小规模初始指令数据集来进行进一步扩展,扩展的方式就是针对每个指令,随机选择In-Depth演化或In-Breadth演化中的一种方式进行演化。In-Depth是使用特定prompt对给定指令进行加限制、深化等操作得到更复杂版本。In-Breadth是基于给定指令生成新指令。反复这个过程之后就可以获得足够数量和难度分布均匀的指令数据。进而可以用来进一步微调大模型。

WizardLM就是基于上述方法微调得到的。在公开的评测结果种,该方法的效果大约是ChatGPT的90%的水平。在后续的研究中,他们进一步发布了WizardLM-70B(基于最新的LLaMA2微调)和编程大模型WizardCoder-15B(基于StarCoder微调)。效果都十分优秀。

本次发布的WizardMath则是基于LLaMA-2微调,针对数学推理优化的大模型。WizardMath一经推出就引起了广泛的讨论,主要原因在于该模型在GSM8K的评测结果上超过了ChatGPT-3.5,以及所有的开源模型,这是迄今为止,开源模型在数学推理任务上取得的最好的进展。

WizardMath的评测结果

目前,WizardMath没有放出具体的论文信息(WizardMath论文下周发布,WizardMath基于改进后的Evol-Instruct方法,名为Reinforced Evol-Instruct),但是评测结果和预训练结果都已经开源。由于WizardMath系列是基于LLaMA2模型微调的,得益于最新的LLaMA2可商用开源协议,该模型也是可以免费商用的。

目前,官方给出的评测结果包含2个,一个是OpenAI的GSM8K评测,一个是MATH评测。官方宣称,他们的评测结果绝对可复现,十分霸气!

❗❗❗Note: This performance is 100% reproducible! If you cannot reproduce it, please follow the steps in Evaluation.

WizardMath在GSM8K的评测结果中超过了ChatGPT-3.5

GSM8K是OpenAI推出的一个包含8500个中学水平的高质量数学题数据集。该数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。也是目前大模型的数学推理评测最有影响力的数据。

根据官方给出的评测结果,GSM8K的评测上,WizardMath在所有模型的排行中排名第五,其GSM8K的水平超过所有开源大模型和ChatGPT-3.5、Claude-Instant-1,十分显著!

WizardMath在MATH的评测结果

MATH是UC Berkeley提出的一个用于评估机器学习模型的数学问题解决能力的数据集,与GSM8K类似,但是包含了12500道高中数学竞赛题,每道题都有详细的步骤化解法。MATH数据集目前对现有模型仍非常具挑战性。

官方给出的MATH评测结果中,最好的模型是GPT-4,得分42.5。闭源模型排名靠前的是谷歌家的PaLM2系列和ChatGPT,都是30多分。而开源模型中,最高的只有LLaMA2-70B,只有13.5分,而基于LLaMA2微调的WizardMath-70B则达到了22.7分!提升效果十分明显!

WizardMath的详细得分如下:

WizardMath在线测试地址和其它信息

官方在几个小时前曾经提供了一个WizardMath-7B的在线demo网站,我测试了一下效果还不错。不过现在已经挂了。

地址:http://47.103.63.15:50080/

等待恢复后大家可以使用。

WizardMath的作者透露,这个模型使用了一个全新的方法来调优模型,使得其效果好了很多,但是具体细节可能要看下周公布的论文结果了。我们随时保持关注。

WizardMath包含3个版本,分别是WizardLM-70B、WizardLM-13和WizardLM-7B,均是基于LLaMA2的模型微调得到,因此也都是开源的免费商用授权,十分友好~

Wizard其它的资源

WizardLM-70B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardLM-70B-V1

WizardMath-70B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardMath-70B-V1

WizardMath-13B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardMath-13B-V1

WizardMath-7B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardMath-7B-V1

 

 

 

悟空CRM产品更多介绍:www.5kcrm.com

相关内容

CRM系统的平均成本是多少?

CRM系统:究竟值不值得投资?大家好!今天咱们来聊聊一个很实用但又让人摸不清底细的话题——CRM(客户关系管理)系统的平均成本。在当今数字化时代,企业越来越依赖技术工具来提升效率和改善客户服务体验,而CRM就是其中最不可或缺的一员。一、为什么需要了解CRM的成本首先呢,我想问问你有没有想过这样一个问题:“我到底该不该花这笔钱去购买并实施一套新的CRM?”其实这很正常啦,毕竟谁也不想把宝贵的预算浪费
相关文章

CRM系统的数据挖掘和预测分析能力如何?

CRM系统的数据挖掘与预测分析:开启商业智慧的大门嘿,大家好!今天咱们聊聊一个在现代企业管理中越来越火的话题——CRM系统中的数据挖掘和预测分析能力。你是不是经常听到“大数据”、“人工智能”这些词呢?其实啊,在客户关系管理(CRM)领域里头,这两个概念也正在改变游戏规则。什么是CRM?首先得解释一下什么叫作CRM吧。简单来说,CRM就是一套帮助公司更好地理解和服务客户的工具和技术集合体。它不仅能够
相关文章

CRM系统的特点有哪些?它的主要作用是什么?

CRM系统:让客户管理变得更轻松嘿,大家好!今天咱们来聊聊一个在商业领域里非常有用的小工具——CRM(Customer Relationship Management)系统。你可能听说过它,也可能对它还比较陌生,没关系,我会尽量用通俗易懂的语言帮你理解这个东西到底是个啥,有什么特点和主要作用。什么是CRM?首先得弄明白,“CRM”这三个字母是“Customer Relationship Manag
相关文章

CRM软件管理系统是什么?它的主要功能和作用是什么?

CRM 软件管理系统:现代企业运营的好帮手嘿!你知道吗?如今的企业管理可不像以前那么简单了。随着市场的竞争日益激烈,客户关系变得越来越重要,而CRM(Customer Relationship Management)软件系统就是为此应运而生的一种强大工具。一、什么是CRM?简单来说,CRM是一种用来管理和优化与客户的互动的技术解决方案。它就像一个超级智能的大脑,帮助公司记住每个客户的信息,并且在合
相关文章

CRM的价格是多少?咋定价的?

嗨,大家好!今天咱们来聊聊一个大家都关心的话题——CRM系统的定价问题。你知道吗,在选择适合自己的客户关系管理(CRM)系统时,价格往往是决定性因素之一。一、市场上的CRM产品大概价格首先得说一句:市场上CRM产品的比较多!通常分为开源CRM、SAAS云服务、私有化部署。开源CRM好的品牌比较少,通常时商用后开始收费。SAAS云服务通常几百元每人每年,而私有化部署的价格通常根据其需要,几万或者几十
相关文章

CRM系统如何轻松记录客户的过去与现在?

嘿!大家好呀,今天咱们来聊聊一个超厉害的东西——CRM系统。这玩意儿可真不是普通的工具哦,它就像你口袋里的私人助手一样贴心呢。不管是企业还是个人创业者,在和顾客打交道的过程中都离不开这个得力帮手。首先吧,什么是CRM呢?简单来说就是用来管理所有跟客户有关的信息、互动和服务的一种软件系统啦。通过使用CRM系统,你可以把每一位客户的历史记录、当前情况以及未来期望统统整理得井井有条,这样不仅提高了工作效
相关文章

企业营销中的视频推广工作原理与CRM客户管理

企业营销中的视频推广工作原理与CRM客户管理一、企业为啥要拍视频?目前很多客户已经从传统的搜索引擎流向了抖音视频等平台,进行视频营销推广对于企业的产品销售与营销具有重要的作用。通过视频,以传播CRM、销售知识等为介质,目的找到潜在客户,让客户去使用咱们的产品,然后购买咱们的产品。那么要求看到视频的潜在客户,可以通过看视频后,然后联系到咱们(使用CRM管理通过微信、私信、抖音下评论、电话来的客户线索
相关文章

什么是CRM软件?CRM软件的基本概念、功能、优点、优势、核心价值

什么是CRM软件?嘿,你知道吗?在这个信息爆炸的时代,企业想要在众多竞争对手中脱颖而出真的不容易。今天我想跟你聊聊一个特别的工具——CRM软件,它就像是企业的私人管家,专门负责打理与客户之间的关系。CRM是Customer Relationship Management(客户关系管理)的缩写,听起来可能有点复杂,但其实它的概念很简单。想象一下,你每天要面对那么多顾客,光是记住他们的名字就已经够难了
相关文章

CRM选型,如何选到合适的CRM系统

嘿!大家好,在这个数字时代,与客户的联系变得比以往任何时候都要重要。一个有效的CRM系统可以让我们更好地了解我们的客户,提高工作效率,并最终增加销售量。但是,面对市面上琳琅满目的CRM系统,你是不是感到有些迷茫呢?别担心,接下来我将为大家提供一些指导性建议,帮助各位挑选出最适合自己的那一款。一、明确自身需求在开始之前,请先认真思考一下自己真正需要什么功能,比如是否重视销售预测或客户服务?是更关注营
相关文章

CRM管理系统软件怎样优化企业的日常运营?

CRM管理系统软件怎样优化企业的日常运营?一、提升客户关系管理效率每个企业都希望与自己的顾客建立并保持长期稳定的关系。为了实现这个目标,我们需要了解每个客户的喜好和需求。然而,在没有合适的工具帮助的情况下,这项工作可能会变得繁琐且耗时。这时就需要一个强大的CRM管理系统软件来帮我们记录所有关于客户的详细信息,并根据这些数据进行分析,以便更好地理解客户需求,制定更有针对性的营销策略。二、加强团队合作
相关文章
最新文章

CRM软件管理系统是什么?它的主要功能和作用是什么?

CRM 软件管理系统:现代企业运营的好帮手嘿!你知道吗?如今的企业管理可不像以前那么简单了。随着市场的竞争日益激烈,客户关系变得越来越重要,而CRM(Customer Relationship Management)软件系统就是为此应运而生的一种强大工具。一、什么是CRM?简单来说,CRM是一种用来管理和优化与客户的互动的技术解决方案。它就像一个超级智能的大脑,帮助公司记住每个客户的信息,并且在合
最新文章

CRM系统的特点有哪些?它的主要作用是什么?

CRM系统:让客户管理变得更轻松嘿,大家好!今天咱们来聊聊一个在商业领域里非常有用的小工具——CRM(Customer Relationship Management)系统。你可能听说过它,也可能对它还比较陌生,没关系,我会尽量用通俗易懂的语言帮你理解这个东西到底是个啥,有什么特点和主要作用。什么是CRM?首先得弄明白,“CRM”这三个字母是“Customer Relationship Manag
最新文章

CRM系统的数据挖掘和预测分析能力如何?

CRM系统的数据挖掘与预测分析:开启商业智慧的大门嘿,大家好!今天咱们聊聊一个在现代企业管理中越来越火的话题——CRM系统中的数据挖掘和预测分析能力。你是不是经常听到“大数据”、“人工智能”这些词呢?其实啊,在客户关系管理(CRM)领域里头,这两个概念也正在改变游戏规则。什么是CRM?首先得解释一下什么叫作CRM吧。简单来说,CRM就是一套帮助公司更好地理解和服务客户的工具和技术集合体。它不仅能够
最新文章

快速注册,立即使用

仅需一分钟,立即注册悟空云。悟空CRM免费试用。
客户端下载