【导读】当学术研究沦为「填空游戏」,利用美国NHANES公共数据集,结合AI工具如ChatGPT,研究者通过套用模板、排列变量,批量生产看似精美却质量堪忧的论文。背后不仅是技术的滥用,更是科研评价体系扭曲的缩影。
假如你是一位科研期刊的编辑,每天打开邮箱,迎接的却是一堆似曾相识的论文。
它们主题各异,数据整齐,措辞流畅,但总有种让人不安的「模板感」。
这可不是一个瞎编的场景,而是2024年发生在《Scientific Reports》编辑Matt Spick身上的真实经历。
作为英国萨里大学的统计学家,他发现大量论文像流水线产品般涌来,全部基于美国国家健康与营养检查调查(NHANES)这一公共数据集。
「我收到的几乎一模一样的论文太多了,有时一天一篇,有时两天三篇,」Spick无奈地说,「这不太对劲」。
近日,Science网站的一篇文章详细详细描述了这个事实。
文章地址:https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai
Spick发现,他所在期刊遇到的问题只是冰山一角。
这些论文并非孤立现象,而是席卷全球学术界的一场「科研填空游戏」。
上周,他与同事在《PLOS Biology》杂志上发表的研究指出,近年来,使用NHANES的低质量论文数量激增。
论文地址:https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3003152
NHANES的「魔力」与「陷阱」
NHANES是一个庞大的公共数据集,涵盖了超过13万人的健康检查、血液检测和饮食信息。
它的开放性让研究者可以轻松挖掘数据,探索健康与疾病的关系。
然而,这种便利也成了双刃剑。
Spick发现,这些NHANES论文遵循一个简单的「公式」:选择一种健康状况(比如抑郁症)、一个可能相关的环境或生理因素(比如维生素D水平),再限定一个人群(比如65岁以上男性)。通过排列组合,研究者能迅速生成「新发现」。
「感觉好像所有可能的组合都被人研究过了」Spick说。
西北大学的元科学家Reese Richardson将其形象地称之为「科研填空游戏」。
他提到,其他研究者在不少领域也发现了类似的「爆发式增长」,比如基因研究、文献计量分析,还有不同科学学科里的性别差异研究。
为了量化这一现象,Spick团队在PubMed和Scopus两大数据库中搜索基于NHANES的单变量关联研究。
他们在147种期刊中发现了341篇这样的论文,包括《Scientific Reports》、《BMC Public Health》及《BMJ Open》。
结果令人震惊:2014年至2021年,这类论文年均仅4篇,但2022年起数量激增,2024年截至10月已达190篇,远超其他大型健康数据集研究的增长速度。
更令人担忧的是,其中的许多论文选择性地分析数据,比如只用某些年份或年龄段的数据,缺乏明确理由。
这背后往往是「p值狩猎」——通过反复尝试找到统计上显著的结果,哪怕这些结果可能是虚假的。
以抑郁症相关研究为例,Spick团队分析了28篇NHANES论文,发现在对多重检验结果进行假发现率(FDR)校正后,仅有 13 项关联仍保持统计学显著性。
这意味着一半以上的「发现」可能是统计噪声,而非真相。
Spick和他的团队甚至认为,他们的分析可能还大大低估了问题的严重性。
他们的搜索只针对符合Spick模式的NHANES研究,更广泛的搜索发现,使用NHANES数据集的论文从2023年的4926篇激增到2024年的7876篇。
Spick还指出,其他大型健康数据集,比如全球疾病负担研究,同样可能存在类似漏洞。
AI与论文工厂的「共谋」
为什么NHANES论文会在2022年后井喷?
答案指向了一个时间点:AI工具如ChatGPT的广泛普及。
这些工具能根据简单指令生成流畅文本,甚至通过改写来逃避抄袭检测。
悉尼大学的分子生物学家Jennifer Byrne在审稿时指出,这种论文的「规模和时机」让人怀疑背后有协调运作,论文工厂(paper mills)可能是幕后推手。
论文工厂是专门出售论文署名权的商业机构。它们利用AI快速生成论文框架,再结合NHANES等公共数据集的便利性,生产出看似合法的论文。
Spick团队甚至编写了一段简单的Python代码,就能从NHANES中提取数据并「批量生成」疾病与健康变量的组合。
这种「工业化」生产模式让低质量论文如洪水般涌入学术期刊。
「老实说,这让我气得跳脚。」Spick表示。
哲学家Hannah Arendt曾提出「平庸之恶」的概念,形容那些在体制下机械执行恶行的行为。
今天的论文工厂何尝不是一种「平庸之恶」?它们未必有意破坏科学,但机械化的论文生产,悄然侵蚀了学术的根基。
扭曲之镜
这场「科研填空游戏」的根源不仅在于技术和数据,还在于学术生态的扭曲。
Richardson一针见血地指出:「所有被点名的期刊都收取了约1000美元的发表费用,来刊登这些垃圾论文。」
开放获取期刊(如《PLOS Biology》)通过作者付费实现免费阅读,但这也让一些期刊更看重数量而非质量。
更深层的问题是科研评价体系。
许多高校和机构以论文数量作为晋升和资助的主要标准,而非论文的质量或影响力。
在「发表即成功」的文化下,研究者只能制造出更多论文,哪怕这些论文毫无意义。
但当科研变成填空游戏,研究者很难从中找到意义。相反,他们被困在一个循环中:不断生产「成果」,即使这些成果可能只是学术垃圾。
当论文成为KPI,科学便从探索真理沦为数字游戏。
破局之道
这场危机并非无解。
Spick建议,期刊应加强对NHANES等公共数据集论文的审查,比如要求作者明确数据选择的理由,并进行更严格的统计校正。Byrne则呼吁开发更智能的检测工具,以识别AI生成的文本。
更根本的改变需要重塑学术激励机制。
Richardson警告:「除非我们彻底改革科研发表的激励模式,否则问题只会更糟」。
这场「科研填空游戏」更像是一面镜子,映照出技术进步与学术伦理的碰撞。
AI和公共数据集本应是科学的加速器,却在扭曲的激励下成了垃圾论文的温床。
参考资料:
https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai
本文来自微信公众号“新智元”,编辑:犀牛,36氪经授权发布。