指定作为模型编码器并提取输入文本的要素表示的预配置神经网络,采用固定长度矢量的形式。 然后,这些矢量作为输入传递给模型的分类中心词。roberta-base—将使用 RoBERTa 神经网络训练模型。 RoBERTa 修改了 BERT 的关键超参数,利用小批量处理和高学习率,消除了预训练目标和下一句训练的需求。albert-base-v1—将使用 ALBERT 神经网络训练模型。 ALBERT 使用自监督损失,着重建模句间一致性,与 BERT 相比,可扩展性更佳。xlnet-base-cased—将使用 XLNet 神经网络训练模型。 XLNet 是一种通用的自回归预训练方法。 它通过最大化分解顺序的所有排列的预期概率来学习双向上下文,从而克服了 BERT 的缺点。xlm-roberta-base—将使用 XLM-RoBERTa 神经网络训练模型。 XLM-RoBERTa 是在 100 种不同语言上进行训练的多语言模型。 与某些 XLM 多语言模型不同,它不需要语言张量来了解使用的语言,并且可以从输入 ID 中识别正确的语言。distilroberta-base—将使用 DistilRoBERTa 神经网络训练模型。 DistilRoBERTa 是一个仅在 OpenWebTextCorpus(OpenAI 的 WebText 数据集复本)上监督 roberta-base 的预训练英语模型。distilbert-base-cased—将使用 DistilBERT 神经网络训练模型。 DistilBERT 通用语言表示模型更小。