标签:多语言

2万亿训练数据,120亿参数!开源大模型Stable LM 2-12B

Stable LM 2架构采用Transformer,共24层,32个自注意力头,使用大量公开数据集进行预训练。Stability.ai使用了一种称为“FlashAttention-2”的高效序列并行优...