Skip to main content
  1. PaperReading/
  2. Others/

How to Fine-Tune BERT for Text Classification?

CCL 2019

Key idea
#

在9个中文数据集上探究了BERT在文本分类任务上的进一步预训练与微调

结论
#

  • 实验一:微调策略
    1. 对于长文本,经验性地截取开头和结尾 > 全文分段送入BERT,self-attention > max pooling > mean pooling
    2. 最后一层的输出 > 若干层的拼接和池化
    3. 较低的学习率(2e-5)和layer-wise的学习率衰减(0.95)有助于缓解灾难性遗忘
      • fine-tune一般采取三角学习率(warm up + linear decay)
      • pretrain: lr=5e-5, seq_len=128; fine-tune: lr=2e-5, seq_len=512
  • 实验二: 进一步预训练
    1. 进一步预训练(in-domain > task > cross-domain,不绝对) > 多任务fine-tune > 直接fine-tune
      • 多任务fine-tune在further pretrain的情况下是会掉点的,仅仅优于直接fine-tune
      • ULMFiT: 大规模数据集上进行pre-training然后在特定数据集上达到state-of-the-art的工作,分为3个阶段,phase1 big dataset pretrain; phase2 task dataset pretrain; phase3 finetune