
强化学习微调(RLFT)
谷歌DeepMind
思维链
语言模型