Key idea #
在9个中文数据集上探究了BERT在文本分类任务上的进一步预训练与微调
结论 #
- 实验一:微调策略
- 对于长文本,经验性地截取开头和结尾 > 全文分段送入BERT,self-attention > max pooling > mean pooling
- 最后一层的输出 > 若干层的拼接和池化
- 较低的学习率(2e-5)和layer-wise的学习率衰减(0.95)有助于缓解灾难性遗忘
- fine-tune一般采取三角学习率(warm up + linear decay)
- pretrain: lr=5e-5, seq_len=128; fine-tune: lr=2e-5, seq_len=512
- 实验二: 进一步预训练
- 进一步预训练(in-domain > task > cross-domain,不绝对) > 多任务fine-tune > 直接fine-tune
- 多任务fine-tune在further pretrain的情况下是会掉点的,仅仅优于直接fine-tune
- ULMFiT: 大规模数据集上进行pre-training然后在特定数据集上达到state-of-the-art的工作,分为3个阶段,phase1 big dataset pretrain; phase2 task dataset pretrain; phase3 finetune
- 进一步预训练(in-domain > task > cross-domain,不绝对) > 多任务fine-tune > 直接fine-tune