预训练大规模深度神经网络(NN),并针对下游任务进行微调已成为深度学习领域的现状。 研究人员面临的一个挑战是如何为给定的下游任务有效地选择最合适的预训练模型,因为这个过程通常需要在模型训练中用于性能预测的昂贵计算成本。
在新论文 Neural Capacitance: A New Perspective of Neural Network Selection via Edge Dynamics 中,来自 Rensselaer Polytechnic Institute、Thomas J. Watson 研究中心和加州大学洛杉矶分校的研究小组提出了一种针对下游任务的有效神经网络选择的新框架。 该方法利用模型的累积信息来预测模型的预测能力,在神经网络训练的早期阶段这样做可以节省资源。
该团队总结了他们的结论: