的 微调 强> 是一种在我们的问题中使用在一些大数据集上学习的特征的方法,这意味着我们不再训练完整的网络 freeze 根据需要,输出网络下层的权重,并在网络末端添加少量层。现在我们再次在我们的数据集上进行训练。所以 的 优点 强> 在这里,我们不需要训练 all-millions 参数,但很少。另一个是我们不需要 large-dataset 微调。
freeze
all-millions
large-dataset
你可以找到更多 这里 。这是 另外,有用 资源,作者已经更详细地解释了这一点(使用代码)。
的 注意 强> :这也被称为 transfer-learning 。
transfer-learning