ChatGPT克星来了! 22岁工程师发明GPTZero,靠「文字困惑度」抓包AI文章

ChatGPT克星来了! 22岁工程师发明GPTZero,靠「文字困惑度」抓包AI文章

ChatGPT克星来了! 22岁工程师发明GPTZero,靠「文字困惑度」抓包AI文章

ChatGPT写文章、程式码、论文⋯⋯样样都能行,但却隐藏着抄袭、学术伦理等问题。如何兼顾AI技术革新与合理的使用规范,是眼前的一大要事。 (来源:Dreamstime)

撰文者:美漪撰文、靖宇编辑

独立观点 2023/01/31

摘要

1.纽约教育部禁止公立学校使用ChatGPT,因为ChatGPT让学生们的日子更轻松了,学校作业和论文,都可以让ChatGPT代劳。

2.一位普林斯顿大学的大四学生Edward Tian,推出可检测文本是否来自AI的软体「GPTZero」,靠分析文本的「困惑度」和「突发性」,抓包AI文章。

3.Tian并非反对人类使用ChatGPT等AI工具,但他认为在使用新技术的同时,应提供负责任的使用方法,并提供必要的保护。

最近2个月,科技圈最热的话题,无疑是OpenAI推出的对话式AI ChatGPT,不仅可以为你写一首诗、回答你任何问题,甚至可以让它帮忙写没那么复杂的程式码。业内甚至认为,ChatGPT有取代Google的潜力。

为ChatGPT欢呼的还有另一群人,就是「社畜」和学生,他们发现月度总结、学校论文和作业这样的任务,也可以让ChatGPT代劳,后者甚至能写得有模有样,不比真人差多少。

ChatGPT似乎让学生们的日子更轻松了,但却让教师更「头疼」,因为后者很难确认眼前这些文字,到底是学生写的,还是出自OpenAI的产品之手。为此,纽约教育部甚至禁止公立学校使用ChatGPT。


在这样的混乱中,一位普林斯顿大学(Princeton University)的学生——Edward Tian推出了一个辨认ChatGPT的软体「GPTZero」。有了这面「照妖镜」,内容是人写的,还是机器写的,真相马上就揭晓。

GPTZero在网路迅速爆红,吸引a16z(Andreessen Horowitz)在内的矽谷创投目光。但是软体创造者本人Tian却认为,现在最重要的事,是让AI更透明


GPTZero成ChatGPT杀手

在ChatGPT成为学生的「偷懒」神器后,教育和科学研究机构不得不抵制这个恶梦。

纽约教育部宣布禁止学生在公立学校使用ChatGPT;知名的「国际机器学习大会」(ICML)也宣布禁止发表包含由ChatGPT和其他类似系统产出的论文,以免出现「意外后果」。

广告-请继续往下阅读


出于学术界对使用ChatGPT道德问题的担忧,Tian在一家咖啡店里,花一个寒假的时间,研发GPTZero,希望能让学术界恢复严谨性。

Tian年仅22岁,目前仍是美国普林斯顿大学的大四学生,主修计算机科学专业,专门研究自然语言处理,同时辅修认知科学和新闻学。

他还曾是英国广播公司(BBC)和开源情报网站Bellingcat的研究员,也曾是被微软收购的分析公司Miburo Solutions的分析师。在那里,他监测假讯息和机器人验证。 Tian认为,所有的经历,都是他研发GPTZero的动力。

2023年1月2日,Tian将GPTZero发布到网路,预计只会有几十个人会尝试它,完全没想过,这会掀起一场世界级的轩然大波。在他把这款软体上传到网路上的几小时内,竟有超过2000人在Steamlit测试GPTZero的公开版本。

1月5日,发布的第三天,Tian更新了GPTZero,显著降低它的误报率;此时,新程式已有超过1万的用户量了! Tian也不禁对它的「爆炸性增长」和「病毒式传播」震惊。

据NPR报道,一周内有3万多人试用了GPTZero,甚至「导致该软体因出乎意料的高流量」崩溃,GPTZero使用的免费平台Streamlit介入,以更多容量和资源处理网路流量、支持Tian。

Tian在一支影片中,展示了软体如何区分人类或人工智慧撰写的文本。


GPTZero怎么运作?

GPTZero的工作原理就是检测文本的「困惑度」(Perplexity)和「突发性」(Burstiness)这2项指标,分别针对2个指标打分数。再根据统计学确定,文本是由人工智慧写的还是人类写的。总的来说,当2项参数得分都很低时,该文本很可能出自AI之手。

「困惑度」(Perplexity)

这里所说的「困惑度」,是指人类书写语言的复杂性和随机性。这个指标主要衡量一个句子中的随机程度,及一个句子的构造方式,是否让GPTZero感到困惑。

每当用户在GPTZero输入一段测试内容,它就会分别计算出:「文字总困惑度」、「所有句子的平均困惑度」、「每个句子的困惑度」。

这些数值越低,越能说明GPTZero对文本非常「熟悉」,那它很可能就是由AI生成;相反的,如果这些数值越高,就越能说明文本中句子的构造或用词方式,让GPTZero感到「惊讶」,那么它有更高的可能是出自人类之手。

这是因为,人工智慧接受过数据库的训练,产生的文本在一段时间内,表现出的困惑度会更平均和稳定,选词的可预测性也更高;人类书写的文本并不会这样,真人的用字遣词通常会比较随机,较容易写出出乎意料的词句。

可以使用GPTZero 检测文字是否由ChatGPT生成。

使用GPTZero 检测文字是否由ChatGPT生成。 (来源:Twitter)


「突发性」(Burstiness)

「突发性」,则指来自人类使用的句子结构变化。这个参数主要是比较句子复杂性的变化,衡量它们的一致性。

这是因为,人类倾向于书写高度复杂的文本;而AI产出的文本则是低复杂度的;此外,人类的思维结构并不是线性的,AI的句子结构则遵循类似的模式。

这意味着,人类使用句子结构,会在长而复杂的句子、短而简单的句子之间摇摆不定,有更多句式变化。像是复杂和简单交替并存,一个长难句之后,出现简短的句子;而机器生成的句子则更加统一,很少会有一系列长度相差很大的句子。

简而言之,在选词上「简单」而「熟悉」,并使用「统一整齐」的句子,是人工智慧生成作品的标志特征;更复杂和多样的东西,则是人类写的。这也是「困惑度」和「突发性」这2项指标可以作为衡量标准的原因。

除了Tian本人对GPTZero进行测试之外,也有不少网友用它对ChatGPT、GPT-3衍生工具生成的内容进行多次测试。最终结果显示,GPTZero每次都能抓住AI生成的文本,并在十多个案例中,正确的识别人类写的文本。

GPTZero一炮而红,让Tian获得来自a16z、 Menlo Ventures和Red Swan等知名创投的青睐。不过,面对Twitter私讯和电话轰炸,Tian显得异常冷静,他谦逊的表示自己不会拒接投资者打来的电话,但他不会忘记自己仍是一位即将毕业的大四学生。

同时,他还表示自己的GPTZero尚未完成,仍需改进和进一步的开发,甚至计划让大家继续免费使用他的程式,用来支持各地新晋老师的工作。


AI技术产生文本,如何不被滥用?

对于GPTZero这一个辨别文字是否为AI写作的新程式,Twitter上的舆论褒贬不一。以教师为代表的成年人大多喜闻乐见,但学生却讽刺GPTZero的创造者Tian是「学术缉毒警察」。

的确,当GPTZero推出时,Tian收到许多教师对该应用程式检测AI文章的积极回馈,来自世界各地的教师也都对Tian表达他们的感激之情,因为这大大减轻了他们的教学难度。当然,也不难理解,不少学生不看好Tian这款打击学术偷工减料、不劳而获的软体。

OpenAI也在打造AI文本检测器

但,在做这件事的不只有Tian,ChatGPT的开发商OpenAI自己,也已经承诺要防止人工智慧剽窃。

2022年12月,OpenAI专注于人工智慧安全的研究员Scott Aaronson透露,公司正在努力开发「缓解措施」,用一种「不易察觉的秘密讯号」在GPT生成的文本打「浮水印」,以识别来源、打击作弊的系统。

这项技术将透过微妙的调整特定单词发挥作用,读者不会注意到,但对于任何寻找机器生成文本痕迹的人来说,这在统计上其实都可预测。

OpenAI公司发言人表示,「我们把ChatGPT当作测试新技术,希望从现实世界的应用,进行学习。我们认为这是开发、部署功能强大且安全的AI系统的关键。我们会不断吸取回馈和经验教训。」

此外,OpenAI联合哈佛等高校机构联合打造一款检测器:GPT-2 Output Detector。

作者们先是发布了一个「GPT-2生成内容」和WebText资料集,帮助AI理解机器语言和人类语言之间的差异。

随后,用这个资料集对RoBERTa模型微调,就得到了这个AI检测器。人类语言一律被识别为True,AI生成的内容则一律被识别为Fake。

值得一提的是,RoBERTa是BERT的改进版。原始的BERT使用13GB大小的资料集,但RoBERTa使用的是包含6300万则英文新闻、160GB的资料集。

尽管如此,还是有不少人认为「AI文本检测器」,注定是一场会失败的「军备竞赛」,实际效果并不理想,更无法阻挡ChatGPT等AI语言模型的发展。

AI文本检测器的目的,不是为了反AI

尽管Tian建立了GPTZero,他并不反对使用ChatGPT等人工智慧工具。他认为GPTZero应用程式的目的,不是要阻止使用新技术,而是提供负责任使用新技术的方法,并有必要的保护。

同时,比起对抗或者禁止一项技术,也许更重要的是,如何为其使用定下规范和标准。例如,在广告、影视及娱乐等行业,对于AI生成内容的容忍度,可能要适当的提高;在学术、教育和科研领域,非常强调准确性和原创性,对AI产生内容的容忍度就要低一些。

如何确定使用AI工具的「透明度」,可能要比研究如何「反AI」,要更有效,也更有意义。

分享这篇文章
← 返回文章列表