Gemma2

研究发现:RAG系统中文档数量影响AI语言模型性能

耶路撒冷希伯来大学的研究人员最近发现,在检索增强生成(RAG)系统中,即使总文本长度保持不变,处理的文档数量也会显著影响语言模型的性能。研究团队利用MuSiQue验证数据集中的2,417个问题进行实验,每个问题链接到20个维基百科段落。其中两到四段包含相关答案信息,其余段落作为干扰项。为研究文档数量的影响,团队创建了多个数据分区,逐步将文档数量从20个减少到最少只保留包含相关信息的2-4个文档。为