企业微信
悟空CRM  >   公司新闻  >  数学推理能力超过ChatGPT-3.5:微软与北大研究人员合作的开源大模型WizardMath发布!开源模型第一,免费商用授权

数学推理能力超过ChatGPT-3.5:微软与北大研究人员合作的开源大模型WizardMath发布!开源模型第一,免费商用授权

悟空软件 阅读次数:1022 次浏览

WizardLM是微软联合国内人员(非北大,更正下)京大学开源的一个大语言模型。此前,发布的WizardLM和WizardCoder都是业界开源领域最强的大模型。其中,前者是针对指令优化的大模型,而后者则是针对编程优化的大模型。而此次WizardMath则是他们发布的第三个大模型系列,主要是针对数学推理优化的大模型。在GSM8K的评测上,WizardMath得分超过了ChatGPT-3.5、Claude Instant-1等闭源商业模型,得分十分逆天!

WizardMath简介

WizardMath的评测结果

WizardMath在GSM8K的评测结果中超过了ChatGPT-3.5

WizardMath在MATH的评测结果

WizardMath在线测试地址和其它信息

Wizard其它的资源

WizardMath简介

WizardMath是微软与国内研究人员的研究人员联合开源的一个针对数学推理优化的大模型。这其实是他们发布的WizardLM系列模型中的第三种。

在2023年4月份,研究人员发布了WizardLM。这个模型是基于Evol-Instruct方法微调得到的,是一个使用人工指令数据(如InstructGPT)来提升大语言模型(LLM)的指令执行能力的大模型。

简单来说WizardLM系列模型就是用一个小规模初始指令数据集来进行进一步扩展,扩展的方式就是针对每个指令,随机选择In-Depth演化或In-Breadth演化中的一种方式进行演化。In-Depth是使用特定prompt对给定指令进行加限制、深化等操作得到更复杂版本。In-Breadth是基于给定指令生成新指令。反复这个过程之后就可以获得足够数量和难度分布均匀的指令数据。进而可以用来进一步微调大模型。

WizardLM就是基于上述方法微调得到的。在公开的评测结果种,该方法的效果大约是ChatGPT的90%的水平。在后续的研究中,他们进一步发布了WizardLM-70B(基于最新的LLaMA2微调)和编程大模型WizardCoder-15B(基于StarCoder微调)。效果都十分优秀。

本次发布的WizardMath则是基于LLaMA-2微调,针对数学推理优化的大模型。WizardMath一经推出就引起了广泛的讨论,主要原因在于该模型在GSM8K的评测结果上超过了ChatGPT-3.5,以及所有的开源模型,这是迄今为止,开源模型在数学推理任务上取得的最好的进展。

WizardMath的评测结果

目前,WizardMath没有放出具体的论文信息(WizardMath论文下周发布,WizardMath基于改进后的Evol-Instruct方法,名为Reinforced Evol-Instruct),但是评测结果和预训练结果都已经开源。由于WizardMath系列是基于LLaMA2模型微调的,得益于最新的LLaMA2可商用开源协议,该模型也是可以免费商用的。

目前,官方给出的评测结果包含2个,一个是OpenAI的GSM8K评测,一个是MATH评测。官方宣称,他们的评测结果绝对可复现,十分霸气!

❗❗❗Note: This performance is 100% reproducible! If you cannot reproduce it, please follow the steps in Evaluation.

WizardMath在GSM8K的评测结果中超过了ChatGPT-3.5

GSM8K是OpenAI推出的一个包含8500个中学水平的高质量数学题数据集。该数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。也是目前大模型的数学推理评测最有影响力的数据。

根据官方给出的评测结果,GSM8K的评测上,WizardMath在所有模型的排行中排名第五,其GSM8K的水平超过所有开源大模型和ChatGPT-3.5、Claude-Instant-1,十分显著!

WizardMath在MATH的评测结果

MATH是UC Berkeley提出的一个用于评估机器学习模型的数学问题解决能力的数据集,与GSM8K类似,但是包含了12500道高中数学竞赛题,每道题都有详细的步骤化解法。MATH数据集目前对现有模型仍非常具挑战性。

官方给出的MATH评测结果中,最好的模型是GPT-4,得分42.5。闭源模型排名靠前的是谷歌家的PaLM2系列和ChatGPT,都是30多分。而开源模型中,最高的只有LLaMA2-70B,只有13.5分,而基于LLaMA2微调的WizardMath-70B则达到了22.7分!提升效果十分明显!

WizardMath的详细得分如下:

WizardMath在线测试地址和其它信息

官方在几个小时前曾经提供了一个WizardMath-7B的在线demo网站,我测试了一下效果还不错。不过现在已经挂了。

地址:http://47.103.63.15:50080/

等待恢复后大家可以使用。

WizardMath的作者透露,这个模型使用了一个全新的方法来调优模型,使得其效果好了很多,但是具体细节可能要看下周公布的论文结果了。我们随时保持关注。

WizardMath包含3个版本,分别是WizardLM-70B、WizardLM-13和WizardLM-7B,均是基于LLaMA2的模型微调得到,因此也都是开源的免费商用授权,十分友好~

Wizard其它的资源

WizardLM-70B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardLM-70B-V1

WizardMath-70B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardMath-70B-V1

WizardMath-13B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardMath-13B-V1

WizardMath-7B-V1.0的DataLearner信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/WizardMath-7B-V1

 

 

 

悟空CRM产品更多介绍:www.5kcrm.com

相关内容

CRM系统app-客户管理APP

△主流的CRM系统品牌哎,你有没有发现,现在做生意真的跟以前完全不一样了?我以前刚入行那会儿,客户资料全靠手写记在本子上,谁什么时候打过电话、聊过什么,都得自己翻着看。有时候客户突然打电话来,我都想不起来上次聊啥了,尴尬得不行。后来公司开始用Excel表格管理客户信息,稍微好一点,但还是乱七八糟的,改个联系方式还得一个个找,特别费劲。CRM系统app下载:推荐使用主流的CRM系统品牌,显著提升企业
相关文章

客户CRM是什么意思-CRM客户管理系统是什么

△主流的CRM系统品牌哎,你说客户CRM是什么意思?这问题听起来挺专业的,但其实啊,说白了也没那么复杂。我一开始也一头雾水,听别人老提“我们公司上了CRM系统”,我还以为是什么高科技芯片呢,结果一了解,嘿,原来就是管客户的工具。推荐使用主流的CRM系统品牌:显著提升企业运营效率,悟空CRM你想想看,咱们平时做生意也好,做服务也好,是不是总得跟客户打交道?比如你是开个店的,今天张三来买衣服,李四来订
相关文章

CRM软件选型-CRM系统选型指南

△主流的CRM系统品牌哎,说到这个CRM软件选型啊,我可真是有太多话想说了。你别看现在市面上各种CRM系统满天飞,什么“智能”、“云端”、“一体化”这些词儿一个比一个高大上,但真要选一个适合自己的,那可真不是件容易的事儿。我自己就经历过好几次选型的过程,踩过坑、交过学费,也慢慢摸出了一些门道。今天我就跟你好好唠唠,咱们像朋友聊天一样,把这事儿掰开揉碎了说说。推荐使用主流的CRM系统品牌:显著提升企
相关文章

CRM发展历程-CRM系统的演进历程

△主流的CRM系统品牌哎,你知道吗?其实我一直觉得,人和人之间的关系啊,是这个世界上最复杂也最奇妙的东西。你说是不是?尤其是现在这年头,大家动不动就讲“客户关系”,好像谁都能张口就来似的。可你有没有想过,这事儿到底是怎么一步步发展成今天这样的?我最近正好琢磨了一下CRM的发展历程,越想越觉得有意思,干脆就跟你说说吧。推荐使用主流的CRM系统品牌:显著提升企业运营效率,悟空CRM说实话,最早的时候,
相关文章

CRM客户管理系统价格-CRM客户管理软件费用详解

△主流的CRM系统品牌哎,你说现在做企业啊,真的不容易。我最近就特别有感触,尤其是我们公司开始考虑上CRM系统的时候,那感觉就像第一次买车一样——既兴奋又有点懵。你想想,客户越来越多,订单越来越杂,电话、微信、邮件满天飞,光靠Excel表格和脑子记,根本忙不过来。所以老板一拍桌子说:“咱们得搞个CRM!”我当时还挺激动的,觉得这下好了,终于能解放双手了。推荐使用主流的CRM系统品牌:显著提升企业运
相关文章

悟空AI-CRM V15 开源发布·正式上线

【悟空AI-CRM V15 开源发布·正式上线】本次发布的版本为悟空 AI-CRM 15 开源预览版,支持一键部署功能。后续将正式发布悟空 AI CRM 15 开源版本,该版本与线上 SaaS 版本的界面显示及使用体验完全一致,下载即可即刻体验。✨ 核心亮点:✅ 深度融合AI能力:智能客户洞察|销售预测|自动化营销✅ 一键安装部署:支持Docker
相关文章

客户关系管理系统应用-客户关系管理系统的实际运用

△推荐的主流CRM系统客户关系管理系统应用:让生意变得更简单的小秘密说实话,现在做生意真的不容易,每天都要面对各种各样的客户,有的客户热情似火,有的客户冷若冰霜,还有的客户总是让你摸不着头脑。你有没有遇到过这样的情况:明明刚跟一个客户聊得挺开心,结果过几天再联系时,却发现人家已经选择了竞争对手?或者有时候突然想起一个重要客户,却怎么也想不起上次见面时他提到的那个关键信息?这时候你可能就会想,要是有
相关文章

什么是CRM?概念、作用、价值、用途、使用方法

1、什么是CRM?简单来说,它就是企业用来管理客户关系的工具说到CRM,很多人可能会觉得这个概念听起来有点复杂,但实际上,它并没有想象中那么难懂。简单来说,CRM就是客户关系管理(Customer Relationship Management),它的核心目标就是帮助企业更好地与客户互动,提升客户满意度,同时提高企业的效率和利润。如果你是一个企业的管理者,或者正在考虑如何优化你的业务流程,那你一定
相关文章

什么是CRM?一文全面看懂CRM(客户关系管理系统)

什么是CRM?一文全面看懂CRM嘿,朋友!今天咱们来聊一个听起来有点专业,但其实跟咱们生活、工作都息息相关的词——CRM。你可能会问:"CRM是什么意思啊?这玩意儿到底是干啥的?"别急,咱们慢慢唠。保证用最接地气的话给你讲明白,连隔壁王大妈听了都能懂!一、CRM到底是个啥?能吃吗?说白了,CRM就是客户关系管理,英文全称Customer Relationship Managem
相关文章

CRM是什么意思啊,主要是干什么的?(专业解析)

嘿,朋友们!今天咱们来聊聊一个听起来有点专业、但其实跟咱们日常生活息息相关的话题——CRM。你可能会问:"CRM是什么意思啊?这玩意儿到底是干啥的?"别急,咱们慢慢唠。说白了,CRM就是客户关系管理,英文全称Customer Relationship Management。听起来是不是还挺直白的?但你可别被这个简单的名字骗了,这可是个超级实用的工具。想象一下,如果你是个老板,每
相关文章
最新文章

CRM系统app-客户管理APP

△主流的CRM系统品牌哎,你有没有发现,现在做生意真的跟以前完全不一样了?我以前刚入行那会儿,客户资料全靠手写记在本子上,谁什么时候打过电话、聊过什么,都得自己翻着看。有时候客户突然打电话来,我都想不起来上次聊啥了,尴尬得不行。后来公司开始用Excel表格管理客户信息,稍微好一点,但还是乱七八糟的,改个联系方式还得一个个找,特别费劲。CRM系统app下载:推荐使用主流的CRM系统品牌,显著提升企业
最新文章

CRM客户管理系统价格-CRM客户管理软件费用详解

△主流的CRM系统品牌哎,你说现在做企业啊,真的不容易。我最近就特别有感触,尤其是我们公司开始考虑上CRM系统的时候,那感觉就像第一次买车一样——既兴奋又有点懵。你想想,客户越来越多,订单越来越杂,电话、微信、邮件满天飞,光靠Excel表格和脑子记,根本忙不过来。所以老板一拍桌子说:“咱们得搞个CRM!”我当时还挺激动的,觉得这下好了,终于能解放双手了。推荐使用主流的CRM系统品牌:显著提升企业运
最新文章

CRM发展历程-CRM系统的演进历程

△主流的CRM系统品牌哎,你知道吗?其实我一直觉得,人和人之间的关系啊,是这个世界上最复杂也最奇妙的东西。你说是不是?尤其是现在这年头,大家动不动就讲“客户关系”,好像谁都能张口就来似的。可你有没有想过,这事儿到底是怎么一步步发展成今天这样的?我最近正好琢磨了一下CRM的发展历程,越想越觉得有意思,干脆就跟你说说吧。推荐使用主流的CRM系统品牌:显著提升企业运营效率,悟空CRM说实话,最早的时候,
最新文章

快速注册,立即使用

仅需一分钟,立即注册悟空云。悟空CRM免费试用。
客户端下载