高效预训练长度缩放技术 PHD-Transformer 大语言模型(LLM) 字节跳动 字节跳动发布高效预训练长度缩放技术,突破长序列训练瓶颈 ⭐0 👥0 字节跳动宣布推出高效预训练长度缩放技术(Efficient Pretraining Length Scaling),通过创新的Parallel Hidden Decoding Transformer(PHD-Transformer)框架,显著提升大语言模型(LLM)在长序列预训练中的效率与性能。据AIbase了解,该技术在保持推理效率的同时,支持高达2048K(2M)的上下文长度训练,解决了传统框