AI热点 7 hours ago 174 Views 0 Comments

当AI成为论文“考官”,荒诞的故事正在上演 | 谷雨

AI中国
AI中国

Published 7840 Articles


AI正在如何影响和改造我们的时代?一个简明的例子是,高校已经开始用AI,来检测毕业论文的AI率了。


创造AI是为了解放人类,但AI太过强大,足以“以假乱真”,人类只好要求助AI本身来鉴别。这不能不说是一个无奈的选择。而更无奈的是,用AI查AI,至少在目前,导致了许多混乱的鉴别,网上已有许多这样的例子:比如AI判定,唐代著名诗人王勃的《滕王阁序》有着100%AI率,而朱自清的名篇《背影》、《荷塘月色》均为AI代写高风险文章。


当AI大权在握,又显得没有想象中那么“聪明”,就成了困扰许多人的源头——而寻找AI的弱点,出奇制胜,则是无奈下的新选择。


在全民AI的时代,类似的故事可能会越来越多。


论文考官AIGC


原本,郝奇奇的毕业论文一路绿灯,导师还在论文答辩会上夸赞她的论文“很有个人写作风格,在AI盛行的时代很可贵”。然而,当郝奇奇将论文上传至AIGC检测系统,结果显示AI率为76%。


这时,导师也开始质疑她。她的心态“炸了”,崩溃大哭。


郝奇奇是四川省一所985高校汉语言文学专业的学生,她向我保证,这篇一万五千字的论文完全由她个人独立完成。


经济学专业本科生李悦然遇到了同样的问题,她笃定地说,论文全由她独立完成,但AI不买账,将她的论文AI率判为50%。


AIGC(Artificial Intelligence Generated Content)检测率,俗称AI率,是指利用AIGC论文检测系统对学术文本进行AI生成内容占比检测,它被认为是一种新式的论文原创性的检测方法。简单地说,就是“用AI查AI”。


去年6月开始,华东师范大学和北京师范大学联合发布首个《生成式人工智能学生使用指南》,要求学生使用生成式人工智能完成作业时,需对相关内容进行明确标注,且直接生成的内容不得超过全文的20%。


华东师范大学后来对媒体解释了这项新规定的现实背景——AIGC技术在学术研究环境中的滥用。这项举措的目的是,“确保学术道德和学术诚信不被侵犯”。


今年,四川大学、西南交通大学等多个高校先后发布了毕业论文AIGC检测的通知,将AI检测率作为毕业的硬性指标之一。如四川大学教务处规定,文科类毕业论文(设计)AI生成内容占比不超过20%,理工医科类毕业论文(设计)AI生成内容占比不超过15%;西南交通大学教务处规定,原则上本科毕业设计(论文)的AIGC检测结果不能超过30%。


高校对于学生使用AI生成工具整治的背后,是学生对于AI工具的高度依赖。第三方机构“麦可思”发起2024年中国高校师生生成式AI应用情况研究,3000多名高校师生的问卷结果显示,近六成高校师生每天或者每周多次使用生成式AI——其中近三成用于写论文或作业。


高校检测毕业论文AI率已成为一种趋势,而高误判率也正困扰着师生群体。天津市一所理工类大学教师周扬告诉我,学校规定,如果学生论文的AI率高于30%,会被取消参加毕业论文答辩的资格。而且,学生论文的AI检测率和教师绩效挂钩,AI率不达标将直接影响教师的绩效考核。


令周扬难受的是,因AI率被检测为32%,一位她最欣赏的、文风规范严谨的学生失去了一次答辩资格。


后来,她亲手帮学生修改了论文的绪论,结果AIGC检测系统里,整个段落两百字依然全部飘红。


“学生难受,我也难受。”周扬说 。


甘肃省一所高校的新闻专业教师程婷也怀疑AIGC的合理性。她所在的学校,从外部的公司租用了AIGC检测系统,AI检测后,会将学生的论文分为A、B、C、D四个等级,其中C和D等级为AI代写高风险论文。


程婷苦恼地说,一些学生的论文是用AI写成的,反而评为较高的A或B等级,而她亲自指导的两名学生,论文完全是自己写的,却被评为较差的C和D级。她指导的一名学生研究的是老家县城的非遗社火, “你想他从哪抄去呢?根本就抄不上。”


“从确定选题,到论文逻辑,再到标题,这些都是我手把手教他改的。”程婷无奈。


为了让AI满意,他们只能犯错


为了让AI满意,或者说顺利毕业,学生们迫不得已开始琢磨“考官”的心思。


李悦然很早注意到,恰恰是规范的学术论文表述,最容易引发AI率。最频发的情况是,当她在段落的开头使用“首先”,或者在段落的结尾处使用“总之”、“综上所述”等词语时,该段落很容易被判定为AI生成内容。


“人类失去总分总写议论文的权利。”李悦然哭笑不得。


为了降AI率,李悦然把论文中的“其中”、“例如”、 “首先”、“其次”、“然后”、“最后”等逻辑连接词基本都删掉了,“能省则省”。


周扬身为老师,也对此感到困惑:“一篇很规范的论文,不管是摘要、绪论、研究方法,这些写法都是有固定句式和框架的,太规范全都会标红,很离谱。”


专业名词也容易被AIGC检测系统认定为AI生成。一名艺术设计专业的本科应届毕业生告诉我,他们专业的论文惯用“图形设计”、“包装设计”、“文创产品设计”等固定专业名词,但这些句子高概率地被检测为AI生成。为了降低AI率,她只能将这些词改成颇为笼统的表述“该设计”。 一名医学类本科毕业生遇到了相似的问题。论文中惯用的表述,如“XX研究发现”、“XX患病率约为XX”等句子均被判为AI生成内容。



书面语表达也容易被认定为AI生成内容。为此,一名学生把论文中的“可观的发展潜力”改成“还有很大的发展空间”,“XX不及XX”改成“XX比不上XX”。还有一名学生说,她把论文中的“与生俱来”改为“一生下来就有的”。


总的来说,就是要使用大白话,尽可能不使用逻辑连接词、专业名词。


即使表述简单的句子总是被判定为AI生成内容。比如,郝奇奇论文中的一句,“斯德奈在里德学院就读人类学本科课程时,接触到了韦利和庞德翻译的一些中国文学相关的译本,例如《孔子》《道德经》之类的著作,以及其他一些中国和印度的佛教文学作品”。


为了降低AI率,郝奇奇迫不得已为这个句子替换了多个表达,甚至她的朋友帮忙用同一个语义写了多个版本,都无法通过AI检测。


“我简直不知道这样简单的句子到底要怎么说才行。”


后来,她看到社交平台上有网友说“多使用逗号可以降低AI率”,她忍不住尝试,利用文档的快捷键将句号全部替换成逗号,没想到AI率锐减了35%——不过,因为郝奇奇的导师不认可这样的修改方式,所以郝奇奇只能一处一处地修改。


关于将句号全部替换成逗号可以降AI率的原因,郝奇奇推测,可能正是因为这样的改法是错误的,“AI觉得AI不会犯这样格式上的的错误。”


这样的判断并非无中生有。在修改论文时,郝奇奇发现,如果句子中有明显的错别字或者语病,就不会被判定为AI生成内容。比如,“1998年xxx在xxx就读了本科生课程”,她错写成“1998年xxx在xxx就读了本科生”或者“1998年xxx在xxx就读了生”。


大学教师周扬也注意到,她的学生为了降AI率,在论文中使用上不恰当的比喻,“这个问题就好像走进了魔法森林”——这句令人摸不着头脑的比喻句,最终帮助这个句子通过了AI的检测。


短句容易被判定为AI生成内容。李悦然平时有使用AI生成工具的习惯,她反向推测,也许正是因为当下的AI生成工具习惯生成短句。


将句子改得冗杂,成为降AI率的策略之一。江泽康是湖北经济学院新媒体广告专业的应届本科毕业生,原本他论文摘要的第一句话是这样写的:“在新媒体时代的浪潮中,黄梅戏这一传统戏曲艺术面临着传播与发展的双重挑战与机遇。”不幸的是,这个句子被判定为AI生成内容。


在反侦察的思路之下,江泽康将上述句子改得冗杂:“在当代新媒体迅猛发展的时代背景下,黄梅戏作为一种富有魅力的传统戏曲,正面临着传播与发展的双重挑战,同时也迎来了新的发展机遇。”就这样逃过了AIGC的检测。


如果这些方法都不管用,那就只能采取最简单粗暴的修改方式——删除。那位周扬最得意的学生对照AI报告,将一些延展讨论的内容全部删除。秉持着“少说少错”的原则,这名学生的论文AI率下降了8%。


AI降重和AI判定靠谱吗?


在被AIGC检测系统折磨得走投无路之时,郝奇奇想到了寻求另一个AI的帮助。


她把那句无论怎么修改都无法通过AIGC检测的句子,交给了另一个AI,得到了这样的修改方案:“斯奈德在里德学院就读人类学本科课程之时,接触到了,韦利和庞德翻译的一些,中国文学相关的译本,例如《孔子》,与《道德经》之类的著作,而且还有其他一些,中国、印度的佛教文学作品。


你没有看错,这是一个不恰当地使用标点符号,以致无法正常阅读和理解的病句,但它神奇地通过了AI的检测。


另一件让郝奇奇匪夷所思的事情是,在未降论文AI率之前,郝奇奇将论文传至知网AIGC检测系统,显示AI率为20%。随后,郝奇奇将论文传至维普AIGC检测系统,AI率升至70%。



郝奇奇的情况不是孤例。一名学生告诉我,她的朋友将论文传至维普AIGC检测系统,显示AI率为90%,后将论文传至知网AIGC检测系统,显示AI率为30%多。


事实上,不仅不同的AI会给出不同的检测结果,而且相同的AI在不同时间段也可能给出不同的结果。一位新闻学专业的应届生告诉我,他的论文用同一个检测系统检测AI率,两次检测大约间隔了27个小时,相同的一段文字,前一次还没有被判定为AI生成,后一次就是了。


AI变来变去的心思令人焦灼。教师周扬说,校方规定论文AI率必须30%以下,但是学生自己检测和校方二次检测存在波动情况,所以为了求稳,她的同事要求学生将AI率压到5%到10%,否则不允许上交论文,让学生主动延期答辩。


AIGC检测系统仿佛一个巨大的黑箱,学生摸不清算法的规律,往往要检测很多次,“非常贵,对学生负担很大”。江泽康说,他使用某论文检测系统每次检测AI率需花费16元,如果同时检测重复率和AI率就要购买45元套餐,而他一共检测了十来次,花费了三百多元。


AIGC检测的底层逻辑是什么


试图理解AIGC检测系统的高误判率现象,以及人为什么需要故意犯错才能逃过AI的检测,都指向同一个问题——AIGC检测的底层逻辑是什么。


目前,国内主流的AIGC检测平台对其大模型的原理的公开表述比较模糊。企查查平台显示,同方知网数字出版技术股份有限公司在2025年1月24日申请了一项名为《AI生成学术文本的判断方法、装置及相关产品》的专利,其检测系统判定原理如下:首先“利用大模型对‘待判断’学术文本进行改写 ”,再通过对比改写前后的文本,判断该学术文本是否由AI生成。


而维普官网显示,维普AIGC检测系统“能分析文本的语法模式、逻辑连贯性等特征,区分人工与AI创作”。


7月4日,我联系了知网和维普希望进一步了解AI检测的原理,截止目前还未得到回应。


Leo是硅谷大厂的AI研究员,她认为弄清楚AIGC检测系统的底层逻辑,前提是弄清楚AI写作和人写作的区别:从词语上来看,AI大模型是以概率的形式生成字词的。比如说下一个字大于80%的概率是某个字,它就选择这个字。因此,AI生成的论文较多使用高频词汇,句子长短也是比较均匀分布的,AI会使用相同的模板,比如说“主定从”句式。


而AIGC检测系统的高误判率正是和AI的标准化学习流程有关。Leo说,当论文写作使用了标准化的语言表达、高度专业化的术语,就被会被误判成AI生成内容。毕竟,论文标准化的写作风格是最容易模仿的。



至于将句子改成病句可以降低AI率,Leo说,是因为这种做法干扰了句子的输入分布,比如,“你吃饭了”,这是一个固定的句式,AI可以理解,但如果中间加了一个逗号,或者加了几个不相关的字,那么,输入分布就改变了。这时,大模型在理解的时候就可能产生偏差。


而一些学生用AI生成工具写论文,却逃过了AIGC检测系统的检查。简单地说,就是这名学生使用的AIGC检测系统没有他所使用的AI生成工具聪明。


赵宣栋是加州大学伯克利分校计算机领域的博士后研究员。在他看来,人和AI写的内容很难完全区分开来。他介绍,当下主流的AIGC检测系统的工作原理主要是“分类器”:通过搜集各大AI生成的数据和人写的数据,将两类数据集训练成一个二分类器,据此区分人写的内容和AI生成的内容。


但人写的内容和AI生成的内容,两者的特征很大一部分是重合的,比如人和AI都可以擅用破折号,无法据此判定谁是AI,谁是人。同时,人类可以发布指令,让AI故意犯错,以逃避AIGC的检测。赵宣栋认为AIGC检测系统很难做出准确的判断——检测的假阳性和假阴性很高,即误判率高。


回到问题的本质,当下的AI大模型,训练目标之一就是让其趋近于人类的表达,比如模仿人类的语气,增加人性化的的输出。2023年10月,赵宣栋及其团队成员在《Provable Robust Watermarking for AI-Generated Text(生成式AI时代的水印技术)》中提到,“这种检测 AIGC 与人类自然文本近似度的思路存在理论上的冲突,因为人工智能本身就是在模仿人类智能,AIGC 与人类自然文本的近似,本身就是该项技术的终极目标。”


用AI查AI,就此构成了悖论。赵宣栋说,AI智能正在发展,当更加智能的模型出来后,将更难以区分两者的区别。


不过,赵宣栋所在的团队提出了一个解决办法,也就是“水印”技术。可以理解成,每个大语言模型都有自己的个性,而“水印”就代表了其中的某一个属性,就像密钥。“比如生成《西游记》,实际上它行文思路有千百种,我使用这个水印之后,相当于我选择了这几百条路径中的某一条路。那么只要知道密钥,就知道我选择了(哪条)独特的一条路。如果不知道密钥,看起来就像我从几百条里面随机选了一条路。”


“水印”像是为AI生成内容植入了专属的身份识别芯片,获得密钥的人,便能够轻松地识别它是否是AI生成内容。每一家大模型提供商都有自己的“水印”,但各家只能识别自己的,不能识别别家的。


赵宣栋说,国家可以设立法律法规,强制要求大模型提供商添加“水印”,再由政府部门统一管理,对内容统一检测。在这种管理下,或许AI生成的滥用问题会缓解很多。


不过,赵宣栋也表示,水印技术无法百分之百识别AI生成内容——如果一个人执意对抗AIGC的检测,即便在有“水印”的情况下,他也可以再做额外的修改,直到把“水印”完全抹去。所以,识别AI生成,总体而言是一个很困难的场景。


作为一个试图驯化计算机的研究者,赵宣栋依然对人类保有信心,他说,人类高度创造性的思维,是人工智能无法企及的。


而AI将成为人类智识的延展,基于AI大模型,新的研究方法正在各行各业被创造出来,说到底,都是人类与AI的结合。可能在不远的将来,人类与AI将变得如此密不可分,区分何为AI生成何为人工,将变得不再那么重要。


但对于正处于AI困境的人们来说,硅基智能已经开始困扰人类自身。一名英语专业本科生就说,当她一遍遍地修改论文,一次次地揣摩AI的心思,她感觉自己的语言仿佛被AI同化了,越来越有AI味。


文章来自于“ 腾讯新闻 谷雨工作室”,作者“陈媛媛”。

AI中国

AI中国

7840 Articles 1205012 Views 950300 Fans

评论 (0)

睡觉动画