参考《Distilling the Knowledge in a Neural Network》Hinton等
蒸馏的作用
首先,什么是蒸馏,可以做什么?
正常来说,越复杂的深度学习网络,例如大名鼎鼎的BERT,其拟合效果越好,但伴随着推理…
论文地址
1. 学习记录 看完之后再看这个也不错: 论文笔记 《Distilling the Knowledge in a Neural Network》:https://luofanghao.github.io/blog/2016/07/20/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0%20%E3%80%8ADistilling%20the%20Knowledge%20in%20a…