AI新词 Azure GPT-4 Salesforce AI聊天越久越"糊涂":微软研究揭示语言模型可靠性骤降39% ⭐0 👥0 微软和Salesforce联合研究发现,即使是最先进的AI语言模型在长时间对话中也会出现严重的可靠性问题。当用户逐步表达需求时,系统性能平均下降39%,这一发现对AI助手的实际应用提出了重要警示。模拟真实交互揭示性能缺陷研究团队创建了名为"分片"的测试方法,模拟用户在实际对话中逐步明确需求的过程。与传统的一次性提供完整信息不同,这种方法将任务分解为多个步骤,更贴近真实使用场景。测试结果令人震惊:A