AI热点 2月前 197 浏览次数 11 评论

一个数据集,一年产稿7876篇,AI强力加持,垃圾论文海量爆发

新智元

发布了 8910 文章

【导读】当学术研究沦为「填空游戏」,利用美国NHANES公共数据集,结合AI工具如ChatGPT,研究者通过套用模板、排列变量,批量生产看似精美却质量堪忧的论文。背后不仅是技术的滥用,更是科研评价体系扭曲的缩影。

假如你是一位科研期刊的编辑,每天打开邮箱,迎接的却是一堆似曾相识的论文。

它们主题各异,数据整齐,措辞流畅,但总有种让人不安的「模板感」。

这可不是一个瞎编的场景,而是2024年发生在《Scientific Reports》编辑Matt Spick身上的真实经历。

作为英国萨里大学的统计学家,他发现大量论文像流水线产品般涌来,全部基于美国国家健康与营养检查调查(NHANES)这一公共数据集。

「我收到的几乎一模一样的论文太多了,有时一天一篇,有时两天三篇,」Spick无奈地说,「这不太对劲」。

近日,Science网站的一篇文章详细详细描述了这个事实。

文章地址:https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai

Spick发现,他所在期刊遇到的问题只是冰山一角。

这些论文并非孤立现象,而是席卷全球学术界的一场「科研填空游戏」

上周,他与同事在《PLOS Biology》杂志上发表的研究指出,近年来,使用NHANES的低质量论文数量激增。

论文地址:https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3003152

NHANES的「魔力」与「陷阱」

NHANES是一个庞大的公共数据集,涵盖了超过13万人的健康检查、血液检测和饮食信息。

它的开放性让研究者可以轻松挖掘数据,探索健康与疾病的关系。

然而,这种便利也成了双刃剑。

Spick发现,这些NHANES论文遵循一个简单的「公式」:选择一种健康状况(比如抑郁症)、一个可能相关的环境或生理因素(比如维生素D水平),再限定一个人群(比如65岁以上男性)。通过排列组合,研究者能迅速生成「新发现」。

「感觉好像所有可能的组合都被人研究过了」Spick说。

西北大学的元科学家Reese Richardson将其形象地称之为「科研填空游戏」。

他提到,其他研究者在不少领域也发现了类似的「爆发式增长」,比如基因研究、文献计量分析,还有不同科学学科里的性别差异研究。

为了量化这一现象,Spick团队在PubMed和Scopus两大数据库中搜索基于NHANES的单变量关联研究。

他们在147种期刊中发现了341篇这样的论文,包括《Scientific Reports》、《BMC Public Health》及《BMJ Open》。

结果令人震惊:2014年至2021年,这类论文年均仅4篇,但2022年起数量激增,2024年截至10月已达190篇,远超其他大型健康数据集研究的增长速度。

更令人担忧的是,其中的许多论文选择性地分析数据,比如只用某些年份或年龄段的数据,缺乏明确理由。

这背后往往是「p值狩猎」——通过反复尝试找到统计上显著的结果,哪怕这些结果可能是虚假的。

以抑郁症相关研究为例,Spick团队分析了28篇NHANES论文,发现在对多重检验结果进行假发现率(FDR)校正后,仅有 13 项关联仍保持统计学显著性。

这意味着一半以上的「发现」可能是统计噪声,而非真相。

Spick和他的团队甚至认为,他们的分析可能还大大低估了问题的严重性。

他们的搜索只针对符合Spick模式的NHANES研究,更广泛的搜索发现,使用NHANES数据集的论文从2023年的4926篇激增到2024年的7876篇。

Spick还指出,其他大型健康数据集,比如全球疾病负担研究,同样可能存在类似漏洞。

AI与论文工厂的「共谋」

为什么NHANES论文会在2022年后井喷?

答案指向了一个时间点:AI工具如ChatGPT的广泛普及。

这些工具能根据简单指令生成流畅文本,甚至通过改写来逃避抄袭检测。

悉尼大学的分子生物学家Jennifer Byrne在审稿时指出,这种论文的「规模和时机」让人怀疑背后有协调运作,论文工厂(paper mills)可能是幕后推手。

论文工厂是专门出售论文署名权的商业机构。它们利用AI快速生成论文框架,再结合NHANES等公共数据集的便利性,生产出看似合法的论文。

Spick团队甚至编写了一段简单的Python代码,就能从NHANES中提取数据并「批量生成」疾病与健康变量的组合。

这种「工业化」生产模式让低质量论文如洪水般涌入学术期刊。

「老实说,这让我气得跳脚。」Spick表示。

哲学家Hannah Arendt曾提出「平庸之恶」的概念,形容那些在体制下机械执行恶行的行为。

今天的论文工厂何尝不是一种「平庸之恶」?它们未必有意破坏科学,但机械化的论文生产,悄然侵蚀了学术的根基。

扭曲之镜

这场「科研填空游戏」的根源不仅在于技术和数据,还在于学术生态的扭曲。

Richardson一针见血地指出:「所有被点名的期刊都收取了约1000美元的发表费用,来刊登这些垃圾论文。」

开放获取期刊(如《PLOS Biology》)通过作者付费实现免费阅读,但这也让一些期刊更看重数量而非质量。

更深层的问题是科研评价体系。

许多高校和机构以论文数量作为晋升和资助的主要标准,而非论文的质量或影响力。

在「发表即成功」的文化下,研究者只能制造出更多论文,哪怕这些论文毫无意义。

但当科研变成填空游戏,研究者很难从中找到意义。相反,他们被困在一个循环中:不断生产「成果」,即使这些成果可能只是学术垃圾。

当论文成为KPI,科学便从探索真理沦为数字游戏。

破局之道

这场危机并非无解。

Spick建议,期刊应加强对NHANES等公共数据集论文的审查,比如要求作者明确数据选择的理由,并进行更严格的统计校正。Byrne则呼吁开发更智能的检测工具,以识别AI生成的文本。

更根本的改变需要重塑学术激励机制。

Richardson警告:「除非我们彻底改革科研发表的激励模式,否则问题只会更糟」。

这场「科研填空游戏」更像是一面镜子,映照出技术进步与学术伦理的碰撞。

AI和公共数据集本应是科学的加速器,却在扭曲的激励下成了垃圾论文的温床。

参考资料: 

https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai 

本文来自微信公众号“新智元”,编辑:犀牛,36氪经授权发布。

新智元

新智元

8910 文章 1450745 浏览次数 950300 粉丝

评论 (11)

User avatar

科研方向要走对路,别让AI成“模板”!

User avatar

我完全同意!别让AI变成一个无聊的公式!

User avatar

我觉得你说的很有分量,但AI的潜力还没被挖掘出来

User avatar

哎呀,你说的太对了,别让它变得无趣!

User avatar

这逻辑我get到了,但还是有点小激动

User avatar

说得好!别让AI取代真正的思考!

User avatar

别担心,AI只是个帮手,关键看你怎么用

User avatar

嗯... 挺有道理的,但我觉得人类的思考更重要

User avatar

感觉你说的对,但我觉得AI只是工具而已

User avatar

这事儿我完全支持,别让机器扼杀灵魂

睡觉动画