How to Fine-Tune BERT for Text Classification?

Key idea
#

在9个中文数据集上探究了BERT在文本分类任务上的进一步预训练与微调

实验一：微调策略
1. 对于长文本，经验性地截取开头和结尾 > 全文分段送入BERT，self-attention > max pooling > mean pooling
2. 最后一层的输出 > 若干层的拼接和池化
3. 较低的学习率（2e-5）和layer-wise的学习率衰减（0.95）有助于缓解灾难性遗忘
  - fine-tune一般采取三角学习率（warm up + linear decay）
  - pretrain: lr=5e-5, seq_len=128; fine-tune: lr=2e-5, seq_len=512
实验二：进一步预训练
1. 进一步预训练(in-domain > task > cross-domain，不绝对) > 多任务fine-tune > 直接fine-tune
  - 多任务fine-tune在further pretrain的情况下是会掉点的，仅仅优于直接fine-tune
  - ULMFiT: 大规模数据集上进行pre-training然后在特定数据集上达到state-of-the-art的工作，分为3个阶段，phase1 big dataset pretrain; phase2 task dataset pretrain; phase3 finetune