Multi Stage Model Compression using Teacher Assistant and Distil
大型神经网络在各种应用中都表现出高性能但是它们不适合智能手机等小型设备.因此需要实现易于部署在小型设备中并具有高性能的小型网络.解决这个问题的方法之一是蒸馏它可以通过从大型高性能教师模型中转移知识来获得具有高性能的小型神经网络.但是如果教师模型和学生模型之间的参数数量存在较大差异则蒸馏可能无法正常工作.在本文中我们使用教师助理TA模型该模型在教师模型和学生模型之间的层数中处于中间位置以执行隐藏层和输出层的多步压缩这是一种称为基于提示的训练的技术.首先我们通过使用教师模型并针对隐藏层和输出层进行蒸馏来优化TA模型.然后使用TA模型作为老师我们对学生模型上的隐藏层和输出层执行相同的提炼.通过这种方式我们通过减小模型的大小同时逐步增加层的深度来提高学生模型的性能.实验表明所提方法能够将简单的CNN模型压缩到参数比原始神经网络约17的大小同时保持测试数据集相同的分类精度.在使用瓶颈架构的ResNet的学生模型中所提出的方法优于教师模型教师模型的参数数量大约是所提模型的8倍.此外与现有研究相比所提出的方法在学生模型中取得了最佳性能.
下载地址
用户评论