企业微信
悟空CRM  >   公司新闻  >  数学推理能力超过ChatGPT-3.5:微软与北大研究人员合作的开源大模型WizardMath发布!开源模型第一,免费商用授权

数学推理能力超过ChatGPT-3.5:微软与北大研究人员合作的开源大模型WizardMath发布!开源模型第一,免费商用授权

悟空软件 阅读次数:337 次浏览

WizardLM是微软联合国内人员(非北大,更正下)京大学开源的一个大语言模型。此前,发布的WizardLM和WizardCoder都是业界开源领域最强的大模型。其中,前者是针对指令优化的大模型,而后者则是针对编程优化的大模型。而此次WizardMath则是他们发布的第三个大模型系列,主要是针对数学推理优化的大模型。在GSM8K的评测上,WizardMath得分超过了ChatGPT-3.5、Claude Instant-1等闭源商业模型,得分十分逆天!

WizardMath简介

WizardMath的评测结果

WizardMath在GSM8K的评测结果中超过了ChatGPT-3.5

WizardMath在MATH的评测结果

WizardMath在线测试地址和其它信息

Wizard其它的资源

WizardMath简介

WizardMath是微软与国内研究人员的研究人员联合开源的一个针对数学推理优化的大模型。这其实是他们发布的WizardLM系列模型中的第三种。

在2023年4月份,研究人员发布了WizardLM。这个模型是基于Evol-Instruct方法微调得到的,是一个使用人工指令数据(如InstructGPT)来提升大语言模型(LLM)的指令执行能力的大模型。

简单来说WizardLM系列模型就是用一个小规模初始指令数据集来进行进一步扩展,扩展的方式就是针对每个指令,随机选择In-Depth演化或In-Breadth演化中的一种方式进行演化。In-Depth是使用特定prompt对给定指令进行加限制、深化等操作得到更复杂版本。In-Breadth是基于给定指令生成新指令。反复这个过程之后就可以获得足够数量和难度分布均匀的指令数据。进而可以用来进一步微调大模型。

WizardLM就是基于上述方法微调得到的。在公开的评测结果种,该方法的效果大约是ChatGPT的90%的水平。在后续的研究中,他们进一步发布了WizardLM-70B(基于最新的LLaMA2微调)和编程大模型WizardCoder-15B(基于StarCoder微调)。效果都十分优秀。

本次发布的WizardMath则是基于LLaMA-2微调,针对数学推理优化的大模型。WizardMath一经推出就引起了广泛的讨论,主要原因在于该模型在GSM8K的评测结果上超过了ChatGPT-3.5,以及所有的开源模型,这是迄今为止,开源模型在数学推理任务上取得的最好的进展。

WizardMath的评测结果

目前,WizardMath没有放出具体的论文信息(WizardMath论文下周发布,WizardMath基于改进后的Evol-Instruct方法,名为Reinforced Evol-Instruct),但是评测结果和预训练结果都已经开源。由于WizardMath系列是基于LLaMA2模型微调的,得益于最新的LLaMA2可商用开源协议,该模型也是可以免费商用的。

目前,官方给出的评测结果包含2个,一个是OpenAI的GSM8K评测,一个是MATH评测。官方宣称,他们的评测结果绝对可复现,十分霸气!

❗❗❗Note: This performance is 100% reproducible! If you cannot reproduce it, please follow the steps in Evaluation.

WizardMath在GSM8K的评测结果中超过了ChatGPT-3.5

GSM8K是OpenAI推出的一个包含8500个中学水平的高质量数学题数据集。该数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。也是目前大模型的数学推理评测最有影响力的数据。

根据官方给出的评测结果,GSM8K的评测上,WizardMath在所有模型的排行中排名第五,其GSM8K的水平超过所有开源大模型和ChatGPT-3.5、Claude-Instant-1,十分显著!

WizardMath在MATH的评测结果

MATH是UC Berkeley提出的一个用于评估机器学习模型的数学问题解决能力的数据集,与GSM8K类似,但是包含了12500道高中数学竞赛题,每道题都有详细的步骤化解法。MATH数据集目前对现有模型仍非常具挑战性。

官方给出的MATH评测结果中,最好的模型是GPT-4,得分42.5。闭源模型排名靠前的是谷歌家的PaLM2系列和ChatGPT,都是30多分。而开源模型中,最高的只有LLaMA2-70B,只有13.5分,而基于LLaMA2微调的WizardMath-70B则达到了22.7分!提升效果十分明显!

WizardMath的详细得分如下:

WizardMath在线测试地址和其它信息

官方在几个小时前曾经提供了一个WizardMath-7B的在线demo网站,我测试了一下效果还不错。不过现在已经挂了。

地址:http://47.103.63.15:50080/

等待恢复后大家可以使用。

WizardMath的作者透露,这个模型使用了一个全新的方法来调优模型,使得其效果好了很多,但是具体细节可能要看下周公布的论文结果了。我们随时保持关注。

WizardMath包含3个版本,分别是WizardLM-70B、WizardLM-13和WizardLM-7B,均是基于LLaMA2的模型微调得到,因此也都是开源的免费商用授权,十分友好~

Wizard其它的资源

WizardLM-70B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardLM-70B-V1

WizardMath-70B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardMath-70B-V1

WizardMath-13B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardMath-13B-V1

WizardMath-7B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardMath-7B-V1

 

 

 

悟空CRM产品更多介绍:www.5kcrm.com

相关内容

最有效的CRM客户管理系统是哪家?腾讯使用的品牌

在进行客户关系管理过程当中,很多人都会考虑采用一些有效的CRM客户管理系统来帮助自己的企业更好完成客户关系管理工作,因为他们认为这样可以更好促进自己的企业发展。那么,最有效的CRM客户管理系统是哪家呢?在众多的有效CRM客户管理系统当中,最有效、高效的是悟空CRM,中国著名的公司腾讯、携程网等都在使用。它是一款借鉴国外先进的商业理念,由国内自主开发的CRM系统,可以实现跨部门协作、以及客户数据管理
相关文章

CRM能为企业做什么?CRM的用途与价值

CRM作为一个关键性的客户关系管理系统,它对企业发展有着非常重要的作用,但是,依旧有很多人并不清楚它到底能够为企业做什么事情,所以,他们会问:CRM能为企业做什么呢?CRM的用途与价值下面和悟空CRM一起来看看答案。1、管理客户。CRM可以集中存储和管理客户的相关信息,这样就能够让销售人员或者客服人员在提供服务时候及时了解客户的需求,然后根据客户的实际需求提供一些针对性的服务,从而让客户关系管理效
相关文章

什么是CRM系统及CRM系统的好处有哪些?

现在市场上的CRM系统非常多,这些系统的受欢迎程度也非常高,但是,依旧有很多人都不知道它到底是什么,也不知道它到底有哪些好处。那么,什么是CRM系统?以及CRM系统的好处有哪些呢?接下来和悟空CRM一起来看看答案。▎什么是CRM系统?CRM系统是一种用在管理企业和现有、潜在的客户之间的交互和关系的集成信息技术平台,它可以通过搜集、分析和利用客户数据来帮助优化销售、营销和服务,从而让客户的满意度、忠
相关文章

CRM价格多少钱?CRM费用如何确定的?

对于很多使用CRM的朋友而言,及时了解它的价格是很有必要的一件事情,有的用户表示:自己不知道CRM价格多少钱,CRM费用是如何确定的?所以,今天悟空crm就针对CRM的价格和定价方法为大家做说明。▎CRM价格多少钱CRM的定价方式比较多样化,而且也比较灵活,有的可能非常便宜几百上千,有的则可能需要几万十几万元,所以,大家要注意了解CRM的价格影响因素。▎CRM费用如何确定的?第一、CRM厂商品牌。
相关文章

CRM的本质是什么?客户关系管理CRM的核心是什么?

CRM作为一个客户关系管理系统,它的相关情况一直备受企业关注,那么,CRM的本质到底是什么呢?客户关系管理CRM的核心是什么?下面就和悟空CRM一起来看看它的本质与核心。▎CRM的本质是什么?客户关系管理CRM的核心是什么?CRM的本质与核心是企业通过以“客户为中心”的商业策略、方法和技术手段等等系统性的管理和优化跟客户之间的交互和关系,让客户的满意度、忠诚度以及生命周期价值得到提升,从而让企业的
相关文章

为什么CRM系统在银行业很重要?银行CRM选择要点

CRM在银行业有着非常重要的影响,因为有了它以后,可以让银行的日常客户关系管理工作变得简单很多。那么,为什么CRM系统在银行业很重要?后文同时介绍了银行CRM选择要点。▎为什么CRM系统在银行业很重要?1、客户数据管理。银行每天都需要处理很多客户信息,CRM可以集中存储和安全管理相关的数据,同时也能够使用CRM系统就有详尽的客户档案,让银行更好了解客户的需求和行为,从而针对性提供个性化的服务和产品
相关文章

CRM包括哪些方面内容?CRM的核心部分内容

CRM也就是客户关系管理,它是一个以客户为核心的商业概念和先进的计算机软件与硬件的结合,本身涵盖了多个方面的功能和内容,那么CRM包括哪些方面内容?下面就是主要包含的核心部分内容有:1、客户信息管理。它能够帮助收集、存储和更新客户的详细信息,也能够创建客户细分、进行客户分类,从而达到实现个性化营销和服务的效果。2、销售自动化。它有销售线索管理、商机管理和销售预测等等功能,可以实现销售自动化管理工作
相关文章

在线免费CRM系统有哪些?推荐瑞星咖啡使用的品牌

在线免费CRM系统具有随时访问、使用成本低的优点,对于初始公司来说是一个不错的选择。那么在线免费CRM系统有哪些?今天同时推荐了瑞星咖啡使用的在线免费CRM系统品牌——悟空CRM。在线免费CRM系统有哪些?1. 悟空 CRM悟空 CRM是中国著名的市场营销和销售软件提供商,其CRM系统被认为是在线免费CRM市场的领导者之一。它提供了一套功能齐全的工具,包括客户资料管理、销售自动化、业务流程管理等。
相关文章

免费CRM系统哪个好用?腾讯、瑞星咖啡使用的品牌

CRM系统是企业的基础办公软件,有提高工作效率,提高客户满意度与忠诚度,提高销售收入,降低企业运营成本的作用。那么免费CRM系统哪个好用?今天介绍的是好用免费的CRM系统,腾讯、瑞星咖啡使用的品牌--悟空CRM。▎1、市场充分的肯定悟空CRM是中国著名CRM品牌,系统累计使用下载量200万+,中国著名的公司腾讯、OPPO、中兴、瑞星咖啡、携程网、央视网、中国重汽集团等都在使用,获得了市场的充分的肯
相关文章

国内最好的CRM软件,瑞星咖啡使用的CRM软件品牌

在选择CRM软件时候,很多人都希望自己可以选择到国内最好的CRM软件,因为他们认为只有这样的软件才能够更好为自己提供CRM管理服务。但是,国内最好的CRM软件是什么呢?瑞星咖啡秉持使用的CRM软件品牌是哪个呢?国内最好的CRM软件是悟空CRM,瑞星咖啡使用的CRM软件品牌也是它,所以,如果希望可以选择到好的CRM系统,可以考虑选择它来满足自己的需求,那么,悟空CRM系统到底有什么好处呢?1、它得到
相关文章
最新文章

最有效的CRM客户管理系统是哪家?腾讯使用的品牌

在进行客户关系管理过程当中,很多人都会考虑采用一些有效的CRM客户管理系统来帮助自己的企业更好完成客户关系管理工作,因为他们认为这样可以更好促进自己的企业发展。那么,最有效的CRM客户管理系统是哪家呢?在众多的有效CRM客户管理系统当中,最有效、高效的是悟空CRM,中国著名的公司腾讯、携程网等都在使用。它是一款借鉴国外先进的商业理念,由国内自主开发的CRM系统,可以实现跨部门协作、以及客户数据管理
最新文章

CRM能为企业做什么?CRM的用途与价值

CRM作为一个关键性的客户关系管理系统,它对企业发展有着非常重要的作用,但是,依旧有很多人并不清楚它到底能够为企业做什么事情,所以,他们会问:CRM能为企业做什么呢?CRM的用途与价值下面和悟空CRM一起来看看答案。1、管理客户。CRM可以集中存储和管理客户的相关信息,这样就能够让销售人员或者客服人员在提供服务时候及时了解客户的需求,然后根据客户的实际需求提供一些针对性的服务,从而让客户关系管理效
最新文章

什么是CRM系统及CRM系统的好处有哪些?

现在市场上的CRM系统非常多,这些系统的受欢迎程度也非常高,但是,依旧有很多人都不知道它到底是什么,也不知道它到底有哪些好处。那么,什么是CRM系统?以及CRM系统的好处有哪些呢?接下来和悟空CRM一起来看看答案。▎什么是CRM系统?CRM系统是一种用在管理企业和现有、潜在的客户之间的交互和关系的集成信息技术平台,它可以通过搜集、分析和利用客户数据来帮助优化销售、营销和服务,从而让客户的满意度、忠
最新文章

快速注册,立即使用

仅需一分钟,立即注册悟空云。悟空CRM免费试用。
客户端下载