AI热点 3 months ago 202 Views 10 Comments

当AI成为论文“考官”,荒诞的故事正在上演 | 谷雨

AI中国
AI中国

Published 11569 Articles


AI正在如何影响和改造我们的时代?一个简明的例子是,高校已经开始用AI,来检测毕业论文的AI率了。


创造AI是为了解放人类,但AI太过强大,足以“以假乱真”,人类只好要求助AI本身来鉴别。这不能不说是一个无奈的选择。而更无奈的是,用AI查AI,至少在目前,导致了许多混乱的鉴别,网上已有许多这样的例子:比如AI判定,唐代著名诗人王勃的《滕王阁序》有着100%AI率,而朱自清的名篇《背影》、《荷塘月色》均为AI代写高风险文章。


当AI大权在握,又显得没有想象中那么“聪明”,就成了困扰许多人的源头——而寻找AI的弱点,出奇制胜,则是无奈下的新选择。


在全民AI的时代,类似的故事可能会越来越多。


论文考官AIGC


原本,郝奇奇的毕业论文一路绿灯,导师还在论文答辩会上夸赞她的论文“很有个人写作风格,在AI盛行的时代很可贵”。然而,当郝奇奇将论文上传至AIGC检测系统,结果显示AI率为76%。


这时,导师也开始质疑她。她的心态“炸了”,崩溃大哭。


郝奇奇是四川省一所985高校汉语言文学专业的学生,她向我保证,这篇一万五千字的论文完全由她个人独立完成。


经济学专业本科生李悦然遇到了同样的问题,她笃定地说,论文全由她独立完成,但AI不买账,将她的论文AI率判为50%。


AIGC(Artificial Intelligence Generated Content)检测率,俗称AI率,是指利用AIGC论文检测系统对学术文本进行AI生成内容占比检测,它被认为是一种新式的论文原创性的检测方法。简单地说,就是“用AI查AI”。


去年6月开始,华东师范大学和北京师范大学联合发布首个《生成式人工智能学生使用指南》,要求学生使用生成式人工智能完成作业时,需对相关内容进行明确标注,且直接生成的内容不得超过全文的20%。


华东师范大学后来对媒体解释了这项新规定的现实背景——AIGC技术在学术研究环境中的滥用。这项举措的目的是,“确保学术道德和学术诚信不被侵犯”。


今年,四川大学、西南交通大学等多个高校先后发布了毕业论文AIGC检测的通知,将AI检测率作为毕业的硬性指标之一。如四川大学教务处规定,文科类毕业论文(设计)AI生成内容占比不超过20%,理工医科类毕业论文(设计)AI生成内容占比不超过15%;西南交通大学教务处规定,原则上本科毕业设计(论文)的AIGC检测结果不能超过30%。


高校对于学生使用AI生成工具整治的背后,是学生对于AI工具的高度依赖。第三方机构“麦可思”发起2024年中国高校师生生成式AI应用情况研究,3000多名高校师生的问卷结果显示,近六成高校师生每天或者每周多次使用生成式AI——其中近三成用于写论文或作业。


高校检测毕业论文AI率已成为一种趋势,而高误判率也正困扰着师生群体。天津市一所理工类大学教师周扬告诉我,学校规定,如果学生论文的AI率高于30%,会被取消参加毕业论文答辩的资格。而且,学生论文的AI检测率和教师绩效挂钩,AI率不达标将直接影响教师的绩效考核。


令周扬难受的是,因AI率被检测为32%,一位她最欣赏的、文风规范严谨的学生失去了一次答辩资格。


后来,她亲手帮学生修改了论文的绪论,结果AIGC检测系统里,整个段落两百字依然全部飘红。


“学生难受,我也难受。”周扬说 。


甘肃省一所高校的新闻专业教师程婷也怀疑AIGC的合理性。她所在的学校,从外部的公司租用了AIGC检测系统,AI检测后,会将学生的论文分为A、B、C、D四个等级,其中C和D等级为AI代写高风险论文。


程婷苦恼地说,一些学生的论文是用AI写成的,反而评为较高的A或B等级,而她亲自指导的两名学生,论文完全是自己写的,却被评为较差的C和D级。她指导的一名学生研究的是老家县城的非遗社火, “你想他从哪抄去呢?根本就抄不上。”


“从确定选题,到论文逻辑,再到标题,这些都是我手把手教他改的。”程婷无奈。


为了让AI满意,他们只能犯错


为了让AI满意,或者说顺利毕业,学生们迫不得已开始琢磨“考官”的心思。


李悦然很早注意到,恰恰是规范的学术论文表述,最容易引发AI率。最频发的情况是,当她在段落的开头使用“首先”,或者在段落的结尾处使用“总之”、“综上所述”等词语时,该段落很容易被判定为AI生成内容。


“人类失去总分总写议论文的权利。”李悦然哭笑不得。


为了降AI率,李悦然把论文中的“其中”、“例如”、 “首先”、“其次”、“然后”、“最后”等逻辑连接词基本都删掉了,“能省则省”。


周扬身为老师,也对此感到困惑:“一篇很规范的论文,不管是摘要、绪论、研究方法,这些写法都是有固定句式和框架的,太规范全都会标红,很离谱。”


专业名词也容易被AIGC检测系统认定为AI生成。一名艺术设计专业的本科应届毕业生告诉我,他们专业的论文惯用“图形设计”、“包装设计”、“文创产品设计”等固定专业名词,但这些句子高概率地被检测为AI生成。为了降低AI率,她只能将这些词改成颇为笼统的表述“该设计”。 一名医学类本科毕业生遇到了相似的问题。论文中惯用的表述,如“XX研究发现”、“XX患病率约为XX”等句子均被判为AI生成内容。



书面语表达也容易被认定为AI生成内容。为此,一名学生把论文中的“可观的发展潜力”改成“还有很大的发展空间”,“XX不及XX”改成“XX比不上XX”。还有一名学生说,她把论文中的“与生俱来”改为“一生下来就有的”。


总的来说,就是要使用大白话,尽可能不使用逻辑连接词、专业名词。


即使表述简单的句子总是被判定为AI生成内容。比如,郝奇奇论文中的一句,“斯德奈在里德学院就读人类学本科课程时,接触到了韦利和庞德翻译的一些中国文学相关的译本,例如《孔子》《道德经》之类的著作,以及其他一些中国和印度的佛教文学作品”。


为了降低AI率,郝奇奇迫不得已为这个句子替换了多个表达,甚至她的朋友帮忙用同一个语义写了多个版本,都无法通过AI检测。


“我简直不知道这样简单的句子到底要怎么说才行。”


后来,她看到社交平台上有网友说“多使用逗号可以降低AI率”,她忍不住尝试,利用文档的快捷键将句号全部替换成逗号,没想到AI率锐减了35%——不过,因为郝奇奇的导师不认可这样的修改方式,所以郝奇奇只能一处一处地修改。


关于将句号全部替换成逗号可以降AI率的原因,郝奇奇推测,可能正是因为这样的改法是错误的,“AI觉得AI不会犯这样格式上的的错误。”


这样的判断并非无中生有。在修改论文时,郝奇奇发现,如果句子中有明显的错别字或者语病,就不会被判定为AI生成内容。比如,“1998年xxx在xxx就读了本科生课程”,她错写成“1998年xxx在xxx就读了本科生”或者“1998年xxx在xxx就读了生”。


大学教师周扬也注意到,她的学生为了降AI率,在论文中使用上不恰当的比喻,“这个问题就好像走进了魔法森林”——这句令人摸不着头脑的比喻句,最终帮助这个句子通过了AI的检测。


短句容易被判定为AI生成内容。李悦然平时有使用AI生成工具的习惯,她反向推测,也许正是因为当下的AI生成工具习惯生成短句。


将句子改得冗杂,成为降AI率的策略之一。江泽康是湖北经济学院新媒体广告专业的应届本科毕业生,原本他论文摘要的第一句话是这样写的:“在新媒体时代的浪潮中,黄梅戏这一传统戏曲艺术面临着传播与发展的双重挑战与机遇。”不幸的是,这个句子被判定为AI生成内容。


在反侦察的思路之下,江泽康将上述句子改得冗杂:“在当代新媒体迅猛发展的时代背景下,黄梅戏作为一种富有魅力的传统戏曲,正面临着传播与发展的双重挑战,同时也迎来了新的发展机遇。”就这样逃过了AIGC的检测。


如果这些方法都不管用,那就只能采取最简单粗暴的修改方式——删除。那位周扬最得意的学生对照AI报告,将一些延展讨论的内容全部删除。秉持着“少说少错”的原则,这名学生的论文AI率下降了8%。


AI降重和AI判定靠谱吗?


在被AIGC检测系统折磨得走投无路之时,郝奇奇想到了寻求另一个AI的帮助。


她把那句无论怎么修改都无法通过AIGC检测的句子,交给了另一个AI,得到了这样的修改方案:“斯奈德在里德学院就读人类学本科课程之时,接触到了,韦利和庞德翻译的一些,中国文学相关的译本,例如《孔子》,与《道德经》之类的著作,而且还有其他一些,中国、印度的佛教文学作品。


你没有看错,这是一个不恰当地使用标点符号,以致无法正常阅读和理解的病句,但它神奇地通过了AI的检测。


另一件让郝奇奇匪夷所思的事情是,在未降论文AI率之前,郝奇奇将论文传至知网AIGC检测系统,显示AI率为20%。随后,郝奇奇将论文传至维普AIGC检测系统,AI率升至70%。



郝奇奇的情况不是孤例。一名学生告诉我,她的朋友将论文传至维普AIGC检测系统,显示AI率为90%,后将论文传至知网AIGC检测系统,显示AI率为30%多。


事实上,不仅不同的AI会给出不同的检测结果,而且相同的AI在不同时间段也可能给出不同的结果。一位新闻学专业的应届生告诉我,他的论文用同一个检测系统检测AI率,两次检测大约间隔了27个小时,相同的一段文字,前一次还没有被判定为AI生成,后一次就是了。


AI变来变去的心思令人焦灼。教师周扬说,校方规定论文AI率必须30%以下,但是学生自己检测和校方二次检测存在波动情况,所以为了求稳,她的同事要求学生将AI率压到5%到10%,否则不允许上交论文,让学生主动延期答辩。


AIGC检测系统仿佛一个巨大的黑箱,学生摸不清算法的规律,往往要检测很多次,“非常贵,对学生负担很大”。江泽康说,他使用某论文检测系统每次检测AI率需花费16元,如果同时检测重复率和AI率就要购买45元套餐,而他一共检测了十来次,花费了三百多元。


AIGC检测的底层逻辑是什么


试图理解AIGC检测系统的高误判率现象,以及人为什么需要故意犯错才能逃过AI的检测,都指向同一个问题——AIGC检测的底层逻辑是什么。


目前,国内主流的AIGC检测平台对其大模型的原理的公开表述比较模糊。企查查平台显示,同方知网数字出版技术股份有限公司在2025年1月24日申请了一项名为《AI生成学术文本的判断方法、装置及相关产品》的专利,其检测系统判定原理如下:首先“利用大模型对‘待判断’学术文本进行改写 ”,再通过对比改写前后的文本,判断该学术文本是否由AI生成。


而维普官网显示,维普AIGC检测系统“能分析文本的语法模式、逻辑连贯性等特征,区分人工与AI创作”。


7月4日,我联系了知网和维普希望进一步了解AI检测的原理,截止目前还未得到回应。


Leo是硅谷大厂的AI研究员,她认为弄清楚AIGC检测系统的底层逻辑,前提是弄清楚AI写作和人写作的区别:从词语上来看,AI大模型是以概率的形式生成字词的。比如说下一个字大于80%的概率是某个字,它就选择这个字。因此,AI生成的论文较多使用高频词汇,句子长短也是比较均匀分布的,AI会使用相同的模板,比如说“主定从”句式。


而AIGC检测系统的高误判率正是和AI的标准化学习流程有关。Leo说,当论文写作使用了标准化的语言表达、高度专业化的术语,就被会被误判成AI生成内容。毕竟,论文标准化的写作风格是最容易模仿的。



至于将句子改成病句可以降低AI率,Leo说,是因为这种做法干扰了句子的输入分布,比如,“你吃饭了”,这是一个固定的句式,AI可以理解,但如果中间加了一个逗号,或者加了几个不相关的字,那么,输入分布就改变了。这时,大模型在理解的时候就可能产生偏差。


而一些学生用AI生成工具写论文,却逃过了AIGC检测系统的检查。简单地说,就是这名学生使用的AIGC检测系统没有他所使用的AI生成工具聪明。


赵宣栋是加州大学伯克利分校计算机领域的博士后研究员。在他看来,人和AI写的内容很难完全区分开来。他介绍,当下主流的AIGC检测系统的工作原理主要是“分类器”:通过搜集各大AI生成的数据和人写的数据,将两类数据集训练成一个二分类器,据此区分人写的内容和AI生成的内容。


但人写的内容和AI生成的内容,两者的特征很大一部分是重合的,比如人和AI都可以擅用破折号,无法据此判定谁是AI,谁是人。同时,人类可以发布指令,让AI故意犯错,以逃避AIGC的检测。赵宣栋认为AIGC检测系统很难做出准确的判断——检测的假阳性和假阴性很高,即误判率高。


回到问题的本质,当下的AI大模型,训练目标之一就是让其趋近于人类的表达,比如模仿人类的语气,增加人性化的的输出。2023年10月,赵宣栋及其团队成员在《Provable Robust Watermarking for AI-Generated Text(生成式AI时代的水印技术)》中提到,“这种检测 AIGC 与人类自然文本近似度的思路存在理论上的冲突,因为人工智能本身就是在模仿人类智能,AIGC 与人类自然文本的近似,本身就是该项技术的终极目标。”


用AI查AI,就此构成了悖论。赵宣栋说,AI智能正在发展,当更加智能的模型出来后,将更难以区分两者的区别。


不过,赵宣栋所在的团队提出了一个解决办法,也就是“水印”技术。可以理解成,每个大语言模型都有自己的个性,而“水印”就代表了其中的某一个属性,就像密钥。“比如生成《西游记》,实际上它行文思路有千百种,我使用这个水印之后,相当于我选择了这几百条路径中的某一条路。那么只要知道密钥,就知道我选择了(哪条)独特的一条路。如果不知道密钥,看起来就像我从几百条里面随机选了一条路。”


“水印”像是为AI生成内容植入了专属的身份识别芯片,获得密钥的人,便能够轻松地识别它是否是AI生成内容。每一家大模型提供商都有自己的“水印”,但各家只能识别自己的,不能识别别家的。


赵宣栋说,国家可以设立法律法规,强制要求大模型提供商添加“水印”,再由政府部门统一管理,对内容统一检测。在这种管理下,或许AI生成的滥用问题会缓解很多。


不过,赵宣栋也表示,水印技术无法百分之百识别AI生成内容——如果一个人执意对抗AIGC的检测,即便在有“水印”的情况下,他也可以再做额外的修改,直到把“水印”完全抹去。所以,识别AI生成,总体而言是一个很困难的场景。


作为一个试图驯化计算机的研究者,赵宣栋依然对人类保有信心,他说,人类高度创造性的思维,是人工智能无法企及的。


而AI将成为人类智识的延展,基于AI大模型,新的研究方法正在各行各业被创造出来,说到底,都是人类与AI的结合。可能在不远的将来,人类与AI将变得如此密不可分,区分何为AI生成何为人工,将变得不再那么重要。


但对于正处于AI困境的人们来说,硅基智能已经开始困扰人类自身。一名英语专业本科生就说,当她一遍遍地修改论文,一次次地揣摩AI的心思,她感觉自己的语言仿佛被AI同化了,越来越有AI味。


文章来自于“ 腾讯新闻 谷雨工作室”,作者“陈媛媛”。

AI中国

AI中国

11569 Articles 2144100 Views 950300 Fans

Comment (10)

User avatar

我觉得这背后有更深层次的含义,有点哲学味儿!

User avatar

这种“考试”,说到底还是人类在玩弄它自己

User avatar

这AI考人,比我考的试更让人崩溃!

User avatar

感觉像是对人类智慧的一种嘲讽,哈哈哈哈!

User avatar

这种“考”法,简直是把人当成玩具!

User avatar

感觉是人类对科技的反思,有点意思!

User avatar

难道我们人类就要被这些机器戏弄吗?太真实了!

User avatar

这种AI考人,感觉比考试本身还荒谬!

User avatar

感觉像一场精心策划的恶作剧,太搞笑了!

User avatar

这玩意儿,简直是戏精本戏精!

睡觉动画