转载自:AI学术酱
近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。而大模型压缩主要分为如下几类:
本文将讲述当前大模型蒸馏相关的一些工作。
知识蒸馏是一种机器学习模型压缩方法,它用于将大型模型(教师模型)的知识迁移到较小的模型(学生模型)中。
知识蒸馏(KD),也被称为教师-学生神经网络学习算法,是一种有价值的机器学习技术,旨在提高模型性能和泛化能力。
它通过将知识从复杂的模型(称为教师模型)转移到更简单的模型(称为学生模型)来实现这一点。KD背后的核心思想是将教师模型的综合知识转化为更精简、更有效的表示。
本文,我们将概述利用LLM作为教师的蒸馏方法。根据这些方法是否将LLM的涌现能力(EA)提炼成小语言模型(SLM)来对这些方法进行分类。因此,我们将这些方法分为两个不同的类别:标准 KD 和基于 EA 的 KD。为了直观地表示,下图提供了LLM知识蒸馏的简要分类。
Standard KD旨在使学生模型学习LLM所拥有的常见知识,如输出分布和特征信息。这种方法类似于传统的KD,但区别在于教师模型是LLM。比如:MINILLM 和 GKD。
MINILLM (论文:Knowledge Distillation of Large Language Models)深入研究了白盒生成LLM的蒸馏。它观察到最小化前向 Kullback-Leibler 散度 (KLD) 的挑战(这可能会导致教师分布中不太可能的区域出现概率过高,从而在自由运行生成过程中导致不可能的样本)。为了解决这个问题,MINILLM 选择最小化逆向 KLD。这种方法可以防止学生高估教师分布中的低概率区域,从而提高生成样本的质量。
GKD(论文:GKD: Generalized Knowledge Distillation for Auto-regressive Sequence Models) 探索了自回归模型的蒸馏,这里白盒生成 LLM 是一个子集。该方法确定了两个关键问题:训练期间的输出序列与学生在部署期间生成的输出序列之间的分布不匹配,以及模型under-specificat
近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。而大模型压缩主要分为如下几类:
本文将讲述当前大模型蒸馏相关的一些工作。
知识蒸馏是一种机器学习模型压缩方法,它用于将大型模型(教师模型)的知识迁移到较小的模型(学生模型)中。
知识蒸馏(KD),也被称为教师-学生神经网络学习算法,是一种有价值的机器学习技术,旨在提高模型性能和泛化能力。
它通过将知识从复杂的模型(称为教师模型)转移到更简单的模型(称为学生模型)来实现这一点。KD背后的核心思想是将教师模型的综合知识转化为更精简、更有效的表示。
本文,我们将概述利用LLM作为教师的蒸馏方法。根据这些方法是否将LLM的涌现能力(EA)提炼成小语言模型(SLM)来对这些方法进行分类。因此,我们将这些方法分为两个不同的类别:标准 KD 和基于 EA 的 KD。为了直观地表示,下图提供了LLM知识蒸馏的简要分类。
Standard KD旨在使学生模型学习LLM所拥有的常见知识,如输出分布和特征信息。这种方法类似于传统的KD,但区别在于教师模型是LLM。比如:MINILLM 和 GKD。
MINILLM (论文:Knowledge Distillation of Large Language Models)深入研究了白盒生成LLM的蒸馏。它观察到最小化前向 Kullback-Leibler 散度 (KLD) 的挑战(这可能会导致教师分布中不太可能的区域出现概率过高,从而在自由运行生成过程中导致不可能的样本)。为了解决这个问题,MINILLM 选择最小化逆向 KLD。这种方法可以防止学生高估教师分布中的低概率区域,从而提高生成样本的质量。
GKD(论文:GKD: Generalized Knowledge Distillation for Auto-regressive Sequence Models) 探索了自回归模型的蒸馏,这里白盒生成 LLM 是一个子集。该方法确定了两个关键问题:训练期间的输出序列与学生在部署期间生成的输出序列之间的分布不匹配,以及模型under-specificat
