快速了解GLM-130B和ChatGLM -悟空CRM

悟空CRM > 公司新闻 > 快速了解GLM-130B和ChatGLM

快速了解GLM-130B和ChatGLM

悟空软件 2023-06-14 阅读次数：2800 次浏览

4月29日，清华大学计算机系召开了2023年计算机系校友创新创业研讨会暨第一届基础模型前沿研讨会，会上唐杰教授专门做了特邀报告《ChatGLM：从千亿到开源的一点思考》，对GLM的发展做了非常详细的阐述。有幸拿到报告文件后，对其中的重点进行了一些总结。

GLM生态

经常看到在讨论时，对GLM-130B，ChatGLM千亿模型，ChatGLM-6B的区分不够清楚，这里给出说明：

GLM-130B：于2022年8月由清华智谱AI开源放出。该大语言模型基于之前提出的GLM(General Language Model)，在Norm处理、激活函数、Mask机制等方面进行了调整，目的是训练出开源开放的高精度千亿中英双语稠密模型，能够让更多研发者用上千亿模型。
ChatGLM千亿模型: 于2023年3月开启申请内测，目前暂停了公开申请。该模型是为了解决大基座模型在复杂问题、动态知识、人类对齐场景的不足，基于GLM-130B，引入面向对话的用户反馈，进行指令微调后，得到的对话机器人。
ChatGLM-6B：于2023年3月开源。在进行ChatGLM千亿模型内测的同时，清华团队也开放出了同样技术小参数量的版本，方便研发者们进行学习和开发（非商用）。

GLM-130B的训练

训练目标

让每个人都能用上千亿模型，这是报告中给出的训练目标，纯粹且让人敬佩。

千亿级大模型的特性

流畅的文本生成

快速了解GLM-130B和ChatGLM

多种问题场景的涌现能力

快速了解GLM-130B和ChatGLM

原有大模型存在的问题

规模过大或精度一般
大都无法支持单机推理
基于NVIDIA为主，缺少国产芯片支持
训练成本高昂
人力投入极大
训练过程不稳定
缺少充分训练、开源的稠密千亿大模型

GLM不同于其他大模型的主要特点

相较于自回归模型GPT，自编码模型BERT，以及encoder-decoder模型T5，GLM的模型架构是设计了自回归填空的结构，通过双向注意力，对masked字段进行自回归预测。

快速了解GLM-130B和ChatGLM

训练中遇到的难题及解决方案

快速了解GLM-130B和ChatGLM

大模型训练中最大的挑战是如何平衡训练稳定性（高精度低效）还是训练效率（低精度高效）在训练稳定方面，团队在Attention score层使用了softmax in 32避免上下溢出，并调小了embbeding层梯度，缓解前期的梯度爆炸问题。在训练效率方面，为了实现并行训练策略，采用了多种方案：

采用ZeRO优化器在数据并行组内分摊优化器状态
模型并行：将模型参数分布到多个GPU上

快速了解GLM-130B和ChatGLM

算子融合
流水线平衡
跨平台兼容

快速了解GLM-130B和ChatGLM

训练成果

双语：同时支持中文和英文
高精度（英文）：在LAMBADA上优于GPT-3 175B（+4.0%）、OPT-175B（+5.5%）和BLOOM-176B（+13.0%），在MMLU上略优于GPT-3 175B（+0.9%）
高精度（中文）：在7个零样本CLUE数据集（+24.26%）和5个零样本FewCLUE数据集（+12.75%）上明显优于ERNIE Titan 3.0 260B
高效推理：支持用一台A100（8×40G）/V100（8×32G）服务器基于FasterTransformer进行快速推理（相比Megatron提速最高可达2.5倍）
低门槛推理：最低量化到INT4，则可在4张3090/8张 2080Ti上完成推理
跨平台：支持在NVIDIA、海关DCU、昇腾910和神威处理器上的训练

从千亿模型到ChatGLM

由于千亿模型的动态知识欠缺、知识陈旧、缺乏可解释性，同时缺少高效“Prompt工程”，在对话场景中使用时很难尽人意。就像OpenAI基于GPT3.5大模型，引入RLHF后演变出的ChatGPT，ChatGLM是采用了类似的路线。

快速了解GLM-130B和ChatGLM

目前ChatGLM千亿参数版本由于还处于内测，没有太多的公开信息，报告中给出了目前的一些成绩对比：

在MMLU评测基准上，教GLM-130B有了有更大提升，超过GPT3 davinci版本30%，达到了ChatGPT(GPT-3.5-turbo)的81%
在非数学知识场景达到了ChatGPT(GPT-3.5-turbo)的95%
在非数学推理场景达到了ChatGPT(GPT-3.5-turbo)的96%
在高考、SAT、LSAT等考试的综合成绩上，达到了ChatGPT(GPT-3.5-turbo)的90%

开源ChatGLM-6B

快速了解GLM-130B和ChatGLM

由于ChatGLM千亿参数版本暂未公开，为了与社区一起更好地推动大模型技术的发展，清华团队开源了62亿参数版本的ChatGLM-6B模型。该版本具有以下特点：

充分的中英双语预训练： ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量，兼具双语能力。
优化的模型架构和大小：吸取 GLM-130B 训练经验，修正了二维 RoPE 位置编码实现，使用传统FFN结构。6B（62亿）的参数大小，也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。
较低的部署门槛： FP16 半精度下，ChatGLM-6B 需要至少 13GB 的显存进行推理，结合模型量化技术，这一需求可以进一步降低到 10GB（INT8）和 6GB（INT4），使得 ChatGLM-6B 可以部署在消费级显卡上。
更长的序列长度：相比 GLM-10B（序列长度1024），ChatGLM-6B 序列长度达 2048，支持更长对话和应用。
人类意图对齐训练：使用了监督微调（Supervised Fine-Tuning）、反馈自助（Feedback Bootstrap）、人类反馈强化学习（Reinforcement Learning from Human Feedback）等方式，使模型初具理解人类指令意图的能力。输出格式为 markdown，方便展示。

同时，也必须给出其已知的局限和不足：

模型容量较小： 6B 的小容量，决定了其相对较弱的模型记忆和语言能力。在面对许多事实性知识任务时，ChatGLM-6B 可能会生成不正确的信息；她也不擅长逻辑类问题（如数学、编程）的解答。
可能会产生有害说明或有偏见的内容：ChatGLM-6B 只是一个初步与人类意图对齐的语言模型，可能会生成有害、有偏见的内容。
较弱的多轮对话能力：ChatGLM-6B 的上下文理解能力还不够充分，在面对长答案生成，以及多轮对话的场景时，可能会出现上下文丢失和理解错误的情况。
英文能力不足：训练时使用的指示大部分都是中文的，只有一小部分指示是英文的。因此在使用英文指示时，回复的质量可能不如中文指示的回复，甚至与中文指示下的回复矛盾。
易被误导：ChatGLM-6B 的“自我认知”可能存在问题，很容易被误导并产生错误的言论。例如当前版本模型在被误导的情况下，会在自我认知上发生偏差。即使该模型经过了1万亿标识符（token）左右的双语预训练，并且进行了指令微调和人类反馈强化学习（RLHF），但是因为模型容量较小，所以在某些指示下可能会产生有误导性的内容。

思考和展望

有必要将报告中的思考与展望进行分享。唐杰教授在回顾过去几年时，提到一直是以开源开放的心态在做大模型研究。清华团队不仅仅开源了GLM相关的模型，同时还有自动代码生成模型CodeGeeX，文图生成模型CogView，文字视频生成模型CogVideo，图神经网络工具包Cogdl。同时提到了对认知大模型的思考。

快速了解GLM-130B和ChatGLM