
Step-R1-V-Mini
多模态推理模型
多模态联合强化学习
verifiablereward