企业微信
悟空CRM  >   公司新闻  >  快速了解GLM-130B和ChatGLM

快速了解GLM-130B和ChatGLM

悟空软件 阅读次数:2178 次浏览

4月29日,清华大学计算机系召开了2023年计算机系校友创新创业研讨会暨第一届基础模型前沿研讨会,会上唐杰教授专门做了特邀报告《ChatGLM:从千亿到开源的一点思考》,对GLM的发展做了非常详细的阐述。有幸拿到报告文件后,对其中的重点进行了一些总结。

GLM生态

经常看到在讨论时,对GLM-130B,ChatGLM千亿模型,ChatGLM-6B的区分不够清楚,这里给出说明: 

  • GLM-130B:于2022年8月由清华智谱AI开源放出。该大语言模型基于之前提出的GLM(General Language Model),在Norm处理、激活函数、Mask机制等方面进行了调整,目的是训练出开源开放的高精度千亿中英双语稠密模型,能够让更多研发者用上千亿模型。 
  • ChatGLM千亿模型: 于2023年3月开启申请内测,目前暂停了公开申请。该模型是为了解决大基座模型在复杂问题、动态知识、人类对齐场景的不足,基于GLM-130B,引入面向对话的用户反馈,进行指令微调后,得到的对话机器人。 
  • ChatGLM-6B:于2023年3月开源。在进行ChatGLM千亿模型内测的同时,清华团队也开放出了同样技术小参数量的版本,方便研发者们进行学习和开发(非商用)。

GLM-130B的训练

训练目标

让每个人都能用上千亿模型,这是报告中给出的训练目标,纯粹且让人敬佩。

千亿级大模型的特性

  • 流畅的文本生成

快速了解GLM-130B和ChatGLM

 

  • 多种问题场景的涌现能力

快速了解GLM-130B和ChatGLM

 

原有大模型存在的问题

  • 规模过大或精度一般
  • 大都无法支持单机推理
  • 基于NVIDIA为主,缺少国产芯片支持
  • 训练成本高昂
  • 人力投入极大
  • 训练过程不稳定
  • 缺少充分训练、开源的稠密千亿大模型

GLM不同于其他大模型的主要特点

相较于自回归模型GPT,自编码模型BERT,以及encoder-decoder模型T5,GLM的模型架构是设计了自回归填空的结构,通过双向注意力,对masked字段进行自回归预测。

快速了解GLM-130B和ChatGLM

 

训练中遇到的难题及解决方案

快速了解GLM-130B和ChatGLM

 

大模型训练中最大的挑战是如何平衡训练稳定性(高精度低效)还是训练效率(低精度高效) 在训练稳定方面,团队在Attention score层使用了softmax in 32避免上下溢出,并调小了embbeding层梯度,缓解前期的梯度爆炸问题。 在训练效率方面,为了实现并行训练策略,采用了多种方案: 

  • 采用ZeRO优化器在数据并行组内分摊优化器状态 
  • 模型并行:将模型参数分布到多个GPU上

快速了解GLM-130B和ChatGLM

 

  • 算子融合 
  • 流水线平衡 
  • 跨平台兼容

快速了解GLM-130B和ChatGLM

 

训练成果

  • 双语:同时支持中文和英文
  • 高精度(英文):在LAMBADA上优于GPT-3 175B(+4.0%)、OPT-175B(+5.5%)和BLOOM-176B(+13.0%),在MMLU上略优于GPT-3 175B(+0.9%)
  • 高精度(中文):在7个零样本CLUE数据集(+24.26%)和5个零样本FewCLUE数据集(+12.75%)上明显优于ERNIE Titan 3.0 260B
  • 高效推理:支持用一台A100(8×40G)/V100(8×32G)服务器基于FasterTransformer进行快速推理(相比Megatron提速最高可达2.5倍)
  • 低门槛推理:最低量化到INT4,则可在4张3090/8张 2080Ti上完成推理
  • 跨平台:支持在NVIDIA、海关DCU、昇腾910和神威处理器上的训练

从千亿模型到ChatGLM

由于千亿模型的动态知识欠缺、知识陈旧、缺乏可解释性,同时缺少高效“Prompt工程”,在对话场景中使用时很难尽人意。就像OpenAI基于GPT3.5大模型,引入RLHF后演变出的ChatGPT,ChatGLM是采用了类似的路线。

快速了解GLM-130B和ChatGLM

 

目前ChatGLM千亿参数版本由于还处于内测,没有太多的公开信息,报告中给出了目前的一些成绩对比: 

  • 在MMLU评测基准上,教GLM-130B有了有更大提升,超过GPT3 davinci版本30%,达到了ChatGPT(GPT-3.5-turbo)的81%
  • 在非数学知识场景达到了ChatGPT(GPT-3.5-turbo)的95% 
  • 在非数学推理场景达到了ChatGPT(GPT-3.5-turbo)的96% 
  • 在高考、SAT、LSAT等考试的综合成绩上,达到了ChatGPT(GPT-3.5-turbo)的90%

开源ChatGLM-6B

快速了解GLM-130B和ChatGLM

 

由于ChatGLM千亿参数版本暂未公开,为了与社区一起更好地推动大模型技术的发展,清华团队开源了62亿参数版本的ChatGLM-6B模型。该版本具有以下特点: 

  • 充分的中英双语预训练: ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量,兼具双语能力。
  • 优化的模型架构和大小: 吸取 GLM-130B 训练经验,修正了二维 RoPE 位置编码实现,使用传统FFN结构。6B(62亿)的参数大小,也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。 
  • 较低的部署门槛: FP16 半精度下,ChatGLM-6B 需要至少 13GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8) 和 6GB(INT4), 使得 ChatGLM-6B 可以部署在消费级显卡上。 
  • 更长的序列长度: 相比 GLM-10B(序列长度1024),ChatGLM-6B 序列长度达 2048,支持更长对话和应用。 
  • 人类意图对齐训练: 使用了监督微调(Supervised Fine-Tuning)、反馈自助(Feedback Bootstrap)、人类反馈强化学习(Reinforcement Learning from Human Feedback) 等方式,使模型初具理解人类指令意图的能力。输出格式为 markdown,方便展示。 

同时,也必须给出其已知的局限和不足: 

  • 模型容量较小: 6B 的小容量,决定了其相对较弱的模型记忆和语言能力。在面对许多事实性知识任务时,ChatGLM-6B 可能会生成不正确的信息;她也不擅长逻辑类问题(如数学、编程)的解答。
  • 可能会产生有害说明或有偏见的内容:ChatGLM-6B 只是一个初步与人类意图对齐的语言模型,可能会生成有害、有偏见的内容。
  • 较弱的多轮对话能力:ChatGLM-6B 的上下文理解能力还不够充分,在面对长答案生成,以及多轮对话的场景时,可能会出现上下文丢失和理解错误的情况。
  • 英文能力不足:训练时使用的指示大部分都是中文的,只有一小部分指示是英文的。因此在使用英文指示时,回复的质量可能不如中文指示的回复,甚至与中文指示下的回复矛盾。
  • 易被误导:ChatGLM-6B 的“自我认知”可能存在问题,很容易被误导并产生错误的言论。例如当前版本模型在被误导的情况下,会在自我认知上发生偏差。即使该模型经过了1万亿标识符(token)左右的双语预训练,并且进行了指令微调和人类反馈强化学习(RLHF),但是因为模型容量较小,所以在某些指示下可能会产生有误导性的内容。

思考和展望

有必要将报告中的思考与展望进行分享。 唐杰教授在回顾过去几年时,提到一直是以开源开放的心态在做大模型研究。清华团队不仅仅开源了GLM相关的模型,同时还有自动代码生成模型CodeGeeX,文图生成模型CogView,文字视频生成模型CogVideo,图神经网络工具包Cogdl。 同时提到了对认知大模型的思考。

快速了解GLM-130B和ChatGLM

 

另外对于未来认知智能,通用机器认知能力也进行了总结思考。

 

快速了解GLM-130B和ChatGLM

 

相信在不远的未来,真正具备认知智能的AI将会诞生。

 

 

 

 

 

 

 

 

 

悟空CRM产品更多介绍:www.5kcrm.com

相关内容
最新文章

什么是CRM软件?CRM软件的基本概念、功能、优点、优势、核心价值

什么是CRM软件?嘿,你知道吗?在这个信息爆炸的时代,企业想要在众多竞争对手中脱颖而出真的不容易。今天我想跟你聊聊一个特别的工具——CRM软件,它就像是企业的私人管家,专门负责打理与客户之间的关系。CRM是Customer Relationship Management(客户关系管理)的缩写,听起来可能有点复杂,但其实它的概念很简单。想象一下,你每天要面对那么多顾客,光是记住他们的名字就已经够难了
最新文章

CRM选型,如何选到合适的CRM系统

嘿!大家好,在这个数字时代,与客户的联系变得比以往任何时候都要重要。一个有效的CRM系统可以让我们更好地了解我们的客户,提高工作效率,并最终增加销售量。但是,面对市面上琳琅满目的CRM系统,你是不是感到有些迷茫呢?别担心,接下来我将为大家提供一些指导性建议,帮助各位挑选出最适合自己的那一款。一、明确自身需求在开始之前,请先认真思考一下自己真正需要什么功能,比如是否重视销售预测或客户服务?是更关注营
最新文章

CRM管理系统软件怎样优化企业的日常运营?

CRM管理系统软件怎样优化企业的日常运营?一、提升客户关系管理效率每个企业都希望与自己的顾客建立并保持长期稳定的关系。为了实现这个目标,我们需要了解每个客户的喜好和需求。然而,在没有合适的工具帮助的情况下,这项工作可能会变得繁琐且耗时。这时就需要一个强大的CRM管理系统软件来帮我们记录所有关于客户的详细信息,并根据这些数据进行分析,以便更好地理解客户需求,制定更有针对性的营销策略。二、加强团队合作
最新文章

快速注册,立即使用

仅需一分钟,立即注册悟空云。悟空CRM免费试用。
客户端下载