企业微信
悟空CRM  >   公司新闻  >  数学推理能力超过ChatGPT-3.5:微软与北大研究人员合作的开源大模型WizardMath发布!开源模型第一,免费商用授权

数学推理能力超过ChatGPT-3.5:微软与北大研究人员合作的开源大模型WizardMath发布!开源模型第一,免费商用授权

悟空软件 阅读次数:859 次浏览

WizardLM是微软联合国内人员(非北大,更正下)京大学开源的一个大语言模型。此前,发布的WizardLM和WizardCoder都是业界开源领域最强的大模型。其中,前者是针对指令优化的大模型,而后者则是针对编程优化的大模型。而此次WizardMath则是他们发布的第三个大模型系列,主要是针对数学推理优化的大模型。在GSM8K的评测上,WizardMath得分超过了ChatGPT-3.5、Claude Instant-1等闭源商业模型,得分十分逆天!

WizardMath简介

WizardMath的评测结果

WizardMath在GSM8K的评测结果中超过了ChatGPT-3.5

WizardMath在MATH的评测结果

WizardMath在线测试地址和其它信息

Wizard其它的资源

WizardMath简介

WizardMath是微软与国内研究人员的研究人员联合开源的一个针对数学推理优化的大模型。这其实是他们发布的WizardLM系列模型中的第三种。

在2023年4月份,研究人员发布了WizardLM。这个模型是基于Evol-Instruct方法微调得到的,是一个使用人工指令数据(如InstructGPT)来提升大语言模型(LLM)的指令执行能力的大模型。

简单来说WizardLM系列模型就是用一个小规模初始指令数据集来进行进一步扩展,扩展的方式就是针对每个指令,随机选择In-Depth演化或In-Breadth演化中的一种方式进行演化。In-Depth是使用特定prompt对给定指令进行加限制、深化等操作得到更复杂版本。In-Breadth是基于给定指令生成新指令。反复这个过程之后就可以获得足够数量和难度分布均匀的指令数据。进而可以用来进一步微调大模型。

WizardLM就是基于上述方法微调得到的。在公开的评测结果种,该方法的效果大约是ChatGPT的90%的水平。在后续的研究中,他们进一步发布了WizardLM-70B(基于最新的LLaMA2微调)和编程大模型WizardCoder-15B(基于StarCoder微调)。效果都十分优秀。

本次发布的WizardMath则是基于LLaMA-2微调,针对数学推理优化的大模型。WizardMath一经推出就引起了广泛的讨论,主要原因在于该模型在GSM8K的评测结果上超过了ChatGPT-3.5,以及所有的开源模型,这是迄今为止,开源模型在数学推理任务上取得的最好的进展。

WizardMath的评测结果

目前,WizardMath没有放出具体的论文信息(WizardMath论文下周发布,WizardMath基于改进后的Evol-Instruct方法,名为Reinforced Evol-Instruct),但是评测结果和预训练结果都已经开源。由于WizardMath系列是基于LLaMA2模型微调的,得益于最新的LLaMA2可商用开源协议,该模型也是可以免费商用的。

目前,官方给出的评测结果包含2个,一个是OpenAI的GSM8K评测,一个是MATH评测。官方宣称,他们的评测结果绝对可复现,十分霸气!

❗❗❗Note: This performance is 100% reproducible! If you cannot reproduce it, please follow the steps in Evaluation.

WizardMath在GSM8K的评测结果中超过了ChatGPT-3.5

GSM8K是OpenAI推出的一个包含8500个中学水平的高质量数学题数据集。该数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。也是目前大模型的数学推理评测最有影响力的数据。

根据官方给出的评测结果,GSM8K的评测上,WizardMath在所有模型的排行中排名第五,其GSM8K的水平超过所有开源大模型和ChatGPT-3.5、Claude-Instant-1,十分显著!

WizardMath在MATH的评测结果

MATH是UC Berkeley提出的一个用于评估机器学习模型的数学问题解决能力的数据集,与GSM8K类似,但是包含了12500道高中数学竞赛题,每道题都有详细的步骤化解法。MATH数据集目前对现有模型仍非常具挑战性。

官方给出的MATH评测结果中,最好的模型是GPT-4,得分42.5。闭源模型排名靠前的是谷歌家的PaLM2系列和ChatGPT,都是30多分。而开源模型中,最高的只有LLaMA2-70B,只有13.5分,而基于LLaMA2微调的WizardMath-70B则达到了22.7分!提升效果十分明显!

WizardMath的详细得分如下:

WizardMath在线测试地址和其它信息

官方在几个小时前曾经提供了一个WizardMath-7B的在线demo网站,我测试了一下效果还不错。不过现在已经挂了。

地址:http://47.103.63.15:50080/

等待恢复后大家可以使用。

WizardMath的作者透露,这个模型使用了一个全新的方法来调优模型,使得其效果好了很多,但是具体细节可能要看下周公布的论文结果了。我们随时保持关注。

WizardMath包含3个版本,分别是WizardLM-70B、WizardLM-13和WizardLM-7B,均是基于LLaMA2的模型微调得到,因此也都是开源的免费商用授权,十分友好~

Wizard其它的资源

WizardLM-70B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardLM-70B-V1

WizardMath-70B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardMath-70B-V1

WizardMath-13B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardMath-13B-V1

WizardMath-7B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardMath-7B-V1

 

 

 

悟空CRM产品更多介绍:www.5kcrm.com

相关内容

什么是CRM系统平台?基本概念、功能、使用方法、价格、价值与部署流程

 引言嘿,大家好!今天咱们聊聊一个在现代商业环境中超级重要的工具——CRM系统平台。说白了啊,这个东西就是帮公司更好地了解和处理跟客户的各种互动,从而提高销售效率、提升服务质量的一种神器。著名的CRM系统平台为什么我们要谈论它呢?那可太有道理啦!在这个竞争激烈的时代,企业要想脱颖而出,光靠产品或服务本身是不够的,还得懂得如何用心经营与客户的每一段关系。而CRM就像是企业的私人助手一样,在
相关文章

销售CRM管理系统如何提升团队执行力?

嘿,大家好!今天咱们来聊聊一个特别实用的话题——销售CRM管理系统怎么帮助提升团队的执行力。说到这个,我得先提一提悟空CRM,这可是个挺不错的工具,用起来方便又高效,很多企业都靠它解决了不少头疼的问题呢。首先,咱们得明白一件事,就是现在的市场竞争有多激烈啊。每个公司都在想方设法提高效率、增强竞争力,而销售团队作为直接面对客户的前线部队,他们的表现直接影响着公司的业绩。这时候,一个好的CRM系统就显
相关文章

如何选择适合的CRM客户管理系统?

开始之前,咱们先聊聊CRM嗨,大家好!今天想跟你们聊聊一个在商业世界里越来越火的话题——CRM客户管理系统。你可能已经听说过这个词了,但还不太清楚它具体是干嘛的。简单来说,CRM就是帮助企业更好地管理与客户之间的关系的一种工具。听起来挺专业的吧?其实用起来还挺方便的!选择CRM时要考虑什么?那么问题来了,市面上这么多CRM系统,到底哪个比较好呢?这得看你最关心哪些方面了。首先,得看这个系统是否容易
相关文章

CRM系统的核心价值是什么?如何提升企业效率?

大家好,今天咱们聊聊一个在企业管理中越来越重要的工具——CRM系统。如果你是一个企业管理者,或者正在考虑如何优化团队效率,那你一定听说过“客户关系管理”这个词。但很多人可能还停留在“听起来很高级”的阶段,不知道它到底能带来什么价值。其实,CRM系统的核心价值并不复杂,它就像是一个“客户管家”,帮你把客户信息、销售流程、团队协作全都管起来,让企业运转更高效。而说到具体怎么选,我必须推荐一下悟空CRM
相关文章

一篇文章告诉你哪家CRM客户关系管理系统开发定制公司最好?建议收藏

一篇文章告诉你哪家CRM客户关系管理系统开发定制公司最好?在当今这个竞争激烈的商业环境中,选择一个合适的CRM(客户关系管理)系统对企业的成长至关重要。一个好的CRM不仅能帮助你更好地了解和管理你的客户,还能提高工作效率、优化业务流程,并最终推动业绩增长。那么,在众多的选择中,哪一家CRM客户关系管理系统开发定制公司是最好的呢?为什么越来越多的企业选择了悟空CRM作为他们的首选解决方案呢?一、为什
相关文章

企业客户管理系统软件:商业原理、功能与优势介绍

企业客户管理系统软件:商业原理、功能与优势介绍大家好!今天咱们来聊聊一个对现代企业发展至关重要的工具——企业客户管理系统(CRM)。在商海沉浮中,谁能更好地理解并满足客户需求,谁就能走得更远。那么,CRM系统是如何帮助我们做到这一点的呢?让我们一起来看看。商业原理:连接你我他首先得说说CRM背后的商业逻辑。简单来说,它就是一个桥梁,让企业和客户之间建立了更加紧密的联系。通过收集和分析客户的各种信息
相关文章

什么是CRM系统?它有哪些优势?

《什么是CRM系统?它有哪些优势?》嘿!各位小伙伴们大家好!在商业世界里,“客户就是上帝”,这句话你们一定不陌生吧。今天呢,咱们就来聊聊企业用来“伺候”这些“上帝”的利器——客户关系管理系统(Customer Relationship Management System),简称CRM。一、什么是CRM?在开始之前,我们得先弄清楚啥是CRM系统。其实呢,这玩意儿就像是个超级贴心的小秘书,帮着公司管理
相关文章

使用CRM系统时可能会遇到的问题及解答

使用CRM系统时可能会遇到的问题及解答嘿!大家好,我是你们的老朋友——“智慧助手”。在数字化转型的大潮下,客户关系管理系统(CRM)成为了众多企业的宠儿,它帮助企业更好地管理与客户的每一次互动,从而提高销售业绩和顾客满意度。但是,在实际操作中,难免会碰到一些棘手问题,今天咱们就来聊聊那些关于CRM系统的烦恼以及解决办法。一、如何选择合适的CRM系统?选择一款适合自己的CRM产品就像找对象一样,不能
相关文章

企业销售人员如何通过线索营销获取潜在客户?

通过线索营销获取潜在客户的策略与技巧引言:解锁销售新境界的关键钥匙——线索营销在商业竞争日益激烈的今天,如何精准地定位并吸引潜在客户成为了每个企业成功路上不可或缺的一环。线索营销,作为这一过程中的核心工具,不仅能够帮助企业识别目标市场,还能有效提高转化率和客户满意度。本文将深入探讨线索营销的基本概念、实施步骤以及关键技巧,助您解锁销售的新境界。1. 线索营销:定义与重要性△悟空CRM产品截图定义:
相关文章

推荐几款好用的客户管理软件

推荐几款好用的客户管理软件在这个数字化的时代里,选择一款合适的客户关系管理系统(CRM)对于企业来说至关重要。它不仅能够帮助你更好地了解你的客户,还能提升工作效率和业务成果。今天,我们就来聊聊几款市场上评价较高的CRM系统,并特别谈谈为什么“悟空CRM”值得被关注。悟空CRM:移动优先的设计理念首先介绍的是悟空CRM。作为国内知名的SaaS CRM厂商之一,销售易最突出的特点就是其出色的移动端体验
相关文章
最新文章

什么是CRM系统平台?基本概念、功能、使用方法、价格、价值与部署流程

 引言嘿,大家好!今天咱们聊聊一个在现代商业环境中超级重要的工具——CRM系统平台。说白了啊,这个东西就是帮公司更好地了解和处理跟客户的各种互动,从而提高销售效率、提升服务质量的一种神器。著名的CRM系统平台为什么我们要谈论它呢?那可太有道理啦!在这个竞争激烈的时代,企业要想脱颖而出,光靠产品或服务本身是不够的,还得懂得如何用心经营与客户的每一段关系。而CRM就像是企业的私人助手一样,在
最新文章

销售CRM管理系统如何提升团队执行力?

嘿,大家好!今天咱们来聊聊一个特别实用的话题——销售CRM管理系统怎么帮助提升团队的执行力。说到这个,我得先提一提悟空CRM,这可是个挺不错的工具,用起来方便又高效,很多企业都靠它解决了不少头疼的问题呢。首先,咱们得明白一件事,就是现在的市场竞争有多激烈啊。每个公司都在想方设法提高效率、增强竞争力,而销售团队作为直接面对客户的前线部队,他们的表现直接影响着公司的业绩。这时候,一个好的CRM系统就显
最新文章

如何选择适合的CRM客户管理系统?

开始之前,咱们先聊聊CRM嗨,大家好!今天想跟你们聊聊一个在商业世界里越来越火的话题——CRM客户管理系统。你可能已经听说过这个词了,但还不太清楚它具体是干嘛的。简单来说,CRM就是帮助企业更好地管理与客户之间的关系的一种工具。听起来挺专业的吧?其实用起来还挺方便的!选择CRM时要考虑什么?那么问题来了,市面上这么多CRM系统,到底哪个比较好呢?这得看你最关心哪些方面了。首先,得看这个系统是否容易
最新文章

快速注册,立即使用

仅需一分钟,立即注册悟空云。悟空CRM免费试用。
客户端下载