企业微信
悟空CRM  >   公司新闻  >  快速了解GLM-130B和ChatGLM

快速了解GLM-130B和ChatGLM

悟空软件 阅读次数:2011 次浏览

4月29日,清华大学计算机系召开了2023年计算机系校友创新创业研讨会暨第一届基础模型前沿研讨会,会上唐杰教授专门做了特邀报告《ChatGLM:从千亿到开源的一点思考》,对GLM的发展做了非常详细的阐述。有幸拿到报告文件后,对其中的重点进行了一些总结。

GLM生态

经常看到在讨论时,对GLM-130B,ChatGLM千亿模型,ChatGLM-6B的区分不够清楚,这里给出说明: 

  • GLM-130B:于2022年8月由清华智谱AI开源放出。该大语言模型基于之前提出的GLM(General Language Model),在Norm处理、激活函数、Mask机制等方面进行了调整,目的是训练出开源开放的高精度千亿中英双语稠密模型,能够让更多研发者用上千亿模型。 
  • ChatGLM千亿模型: 于2023年3月开启申请内测,目前暂停了公开申请。该模型是为了解决大基座模型在复杂问题、动态知识、人类对齐场景的不足,基于GLM-130B,引入面向对话的用户反馈,进行指令微调后,得到的对话机器人。 
  • ChatGLM-6B:于2023年3月开源。在进行ChatGLM千亿模型内测的同时,清华团队也开放出了同样技术小参数量的版本,方便研发者们进行学习和开发(非商用)。

GLM-130B的训练

训练目标

让每个人都能用上千亿模型,这是报告中给出的训练目标,纯粹且让人敬佩。

千亿级大模型的特性

  • 流畅的文本生成

快速了解GLM-130B和ChatGLM

 

  • 多种问题场景的涌现能力

快速了解GLM-130B和ChatGLM

 

原有大模型存在的问题

  • 规模过大或精度一般
  • 大都无法支持单机推理
  • 基于NVIDIA为主,缺少国产芯片支持
  • 训练成本高昂
  • 人力投入极大
  • 训练过程不稳定
  • 缺少充分训练、开源的稠密千亿大模型

GLM不同于其他大模型的主要特点

相较于自回归模型GPT,自编码模型BERT,以及encoder-decoder模型T5,GLM的模型架构是设计了自回归填空的结构,通过双向注意力,对masked字段进行自回归预测。

快速了解GLM-130B和ChatGLM

 

训练中遇到的难题及解决方案

快速了解GLM-130B和ChatGLM

 

大模型训练中最大的挑战是如何平衡训练稳定性(高精度低效)还是训练效率(低精度高效) 在训练稳定方面,团队在Attention score层使用了softmax in 32避免上下溢出,并调小了embbeding层梯度,缓解前期的梯度爆炸问题。 在训练效率方面,为了实现并行训练策略,采用了多种方案: 

  • 采用ZeRO优化器在数据并行组内分摊优化器状态 
  • 模型并行:将模型参数分布到多个GPU上

快速了解GLM-130B和ChatGLM

 

  • 算子融合 
  • 流水线平衡 
  • 跨平台兼容

快速了解GLM-130B和ChatGLM

 

训练成果

  • 双语:同时支持中文和英文
  • 高精度(英文):在LAMBADA上优于GPT-3 175B(+4.0%)、OPT-175B(+5.5%)和BLOOM-176B(+13.0%),在MMLU上略优于GPT-3 175B(+0.9%)
  • 高精度(中文):在7个零样本CLUE数据集(+24.26%)和5个零样本FewCLUE数据集(+12.75%)上明显优于ERNIE Titan 3.0 260B
  • 高效推理:支持用一台A100(8×40G)/V100(8×32G)服务器基于FasterTransformer进行快速推理(相比Megatron提速最高可达2.5倍)
  • 低门槛推理:最低量化到INT4,则可在4张3090/8张 2080Ti上完成推理
  • 跨平台:支持在NVIDIA、海关DCU、昇腾910和神威处理器上的训练

从千亿模型到ChatGLM

由于千亿模型的动态知识欠缺、知识陈旧、缺乏可解释性,同时缺少高效“Prompt工程”,在对话场景中使用时很难尽人意。就像OpenAI基于GPT3.5大模型,引入RLHF后演变出的ChatGPT,ChatGLM是采用了类似的路线。

快速了解GLM-130B和ChatGLM

 

目前ChatGLM千亿参数版本由于还处于内测,没有太多的公开信息,报告中给出了目前的一些成绩对比: 

  • 在MMLU评测基准上,教GLM-130B有了有更大提升,超过GPT3 davinci版本30%,达到了ChatGPT(GPT-3.5-turbo)的81%
  • 在非数学知识场景达到了ChatGPT(GPT-3.5-turbo)的95% 
  • 在非数学推理场景达到了ChatGPT(GPT-3.5-turbo)的96% 
  • 在高考、SAT、LSAT等考试的综合成绩上,达到了ChatGPT(GPT-3.5-turbo)的90%

开源ChatGLM-6B

快速了解GLM-130B和ChatGLM

 

由于ChatGLM千亿参数版本暂未公开,为了与社区一起更好地推动大模型技术的发展,清华团队开源了62亿参数版本的ChatGLM-6B模型。该版本具有以下特点: 

  • 充分的中英双语预训练: ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量,兼具双语能力。
  • 优化的模型架构和大小: 吸取 GLM-130B 训练经验,修正了二维 RoPE 位置编码实现,使用传统FFN结构。6B(62亿)的参数大小,也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。 
  • 较低的部署门槛: FP16 半精度下,ChatGLM-6B 需要至少 13GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8) 和 6GB(INT4), 使得 ChatGLM-6B 可以部署在消费级显卡上。 
  • 更长的序列长度: 相比 GLM-10B(序列长度1024),ChatGLM-6B 序列长度达 2048,支持更长对话和应用。 
  • 人类意图对齐训练: 使用了监督微调(Supervised Fine-Tuning)、反馈自助(Feedback Bootstrap)、人类反馈强化学习(Reinforcement Learning from Human Feedback) 等方式,使模型初具理解人类指令意图的能力。输出格式为 markdown,方便展示。 

同时,也必须给出其已知的局限和不足: 

  • 模型容量较小: 6B 的小容量,决定了其相对较弱的模型记忆和语言能力。在面对许多事实性知识任务时,ChatGLM-6B 可能会生成不正确的信息;她也不擅长逻辑类问题(如数学、编程)的解答。
  • 可能会产生有害说明或有偏见的内容:ChatGLM-6B 只是一个初步与人类意图对齐的语言模型,可能会生成有害、有偏见的内容。
  • 较弱的多轮对话能力:ChatGLM-6B 的上下文理解能力还不够充分,在面对长答案生成,以及多轮对话的场景时,可能会出现上下文丢失和理解错误的情况。
  • 英文能力不足:训练时使用的指示大部分都是中文的,只有一小部分指示是英文的。因此在使用英文指示时,回复的质量可能不如中文指示的回复,甚至与中文指示下的回复矛盾。
  • 易被误导:ChatGLM-6B 的“自我认知”可能存在问题,很容易被误导并产生错误的言论。例如当前版本模型在被误导的情况下,会在自我认知上发生偏差。即使该模型经过了1万亿标识符(token)左右的双语预训练,并且进行了指令微调和人类反馈强化学习(RLHF),但是因为模型容量较小,所以在某些指示下可能会产生有误导性的内容。

思考和展望

有必要将报告中的思考与展望进行分享。 唐杰教授在回顾过去几年时,提到一直是以开源开放的心态在做大模型研究。清华团队不仅仅开源了GLM相关的模型,同时还有自动代码生成模型CodeGeeX,文图生成模型CogView,文字视频生成模型CogVideo,图神经网络工具包Cogdl。 同时提到了对认知大模型的思考。

快速了解GLM-130B和ChatGLM

 

另外对于未来认知智能,通用机器认知能力也进行了总结思考。

 

快速了解GLM-130B和ChatGLM

 

相信在不远的未来,真正具备认知智能的AI将会诞生。

 

 

 

 

 

 

 

 

 

悟空CRM产品更多介绍:www.5kcrm.com

相关内容
最新文章

CRM客户管理系统,盘活潜在客户

CRM:让每一位顾客都成为你的“金主”在这个信息爆炸的时代里,客户资源的重要性不言而喻,但如何高效管理这些宝贵的资源却成了许多企业的难题。于是乎,一种名为客户关系管理系统(Customer Relationship Management, 简称CRM) 的工具应运而生。1. 挖掘潜在客户的“金矿”在销售领域,“潜在客户”是那些对你的产品或服务有一定兴趣,但还没有完成购买行为的人群。对于企业来说,这
最新文章

2024年最新CRM全面解析 - 百科

2024年最新CRM全面解析在这个数字化时代,客户关系管理(Customer Relationship Management, CRM)系统已成为企业提升竞争力的关键工具之一。随着技术的发展与市场的需求变化,2024年的CRM又有哪些新的特点和发展趋势呢?让我们一起深入探讨。一、CRM是什么?首先,我们需要明确什么是CRM。简而言之,它是一套帮助企业管理和分析客户信息的方法和技术集合。通过有效的C
最新文章

2024年国产CRM系统一年要花费多少?

【引言】在数字化转型的大潮中,客户关系管理(CRM)系统已成为企业提升竞争力的关键工具之一。对于正在寻找合适CRM系统的中国企业来说,了解2024年的市场趋势与成本至关重要。本文将从几个不同的角度探讨这一问题。一、CRM系统的基本费用首先需要明确的是,并没有一个固定的答案来回答这个问题。不同厂商提供的产品和服务有着各自的定价策略和收费模式,这取决于用户的需求以及所选功能模块等因素。然而我们可以通过
最新文章

快速注册,立即使用

仅需一分钟,立即注册悟空云。悟空CRM免费试用。
客户端下载