
高效预训练长度缩放技术
PHD-Transformer
大语言模型(LLM)
字节跳动