ChatGPT克星来了！ 22岁工程师发明GPTZero，靠「文字困惑度」抓包AI文章

ChatGPT写文章、程式码、论文⋯⋯样样都能行，但却隐藏着抄袭、学术伦理等问题。如何兼顾AI技术革新与合理的使用规范，是眼前的一大要事。 (来源：Dreamstime)

撰文者：美漪撰文、靖宇编辑

独立观点 2023/01/31

摘要

1.纽约教育部禁止公立学校使用ChatGPT，因为ChatGPT让学生们的日子更轻松了，学校作业和论文，都可以让ChatGPT代劳。

2.一位普林斯顿大学的大四学生Edward Tian，推出可检测文本是否来自AI的软体「GPTZero」，靠分析文本的「困惑度」和「突发性」，抓包AI文章。

3.Tian并非反对人类使用ChatGPT等AI工具，但他认为在使用新技术的同时，应提供负责任的使用方法，并提供必要的保护。

最近2个月，科技圈最热的话题，无疑是OpenAI推出的对话式AI ChatGPT，不仅可以为你写一首诗、回答你任何问题，甚至可以让它帮忙写没那么复杂的程式码。业内甚至认为，ChatGPT有取代Google的潜力。

为ChatGPT欢呼的还有另一群人，就是「社畜」和学生，他们发现月度总结、学校论文和作业这样的任务，也可以让ChatGPT代劳，后者甚至能写得有模有样，不比真人差多少。

ChatGPT似乎让学生们的日子更轻松了，但却让教师更「头疼」，因为后者很难确认眼前这些文字，到底是学生写的，还是出自OpenAI的产品之手。为此，纽约教育部甚至禁止公立学校使用ChatGPT。

在这样的混乱中，一位普林斯顿大学（Princeton University）的学生——Edward Tian推出了一个辨认ChatGPT的软体「GPTZero」。有了这面「照妖镜」，内容是人写的，还是机器写的，真相马上就揭晓。

GPTZero在网路迅速爆红，吸引a16z（Andreessen Horowitz）在内的矽谷创投目光。但是软体创造者本人Tian却认为，现在最重要的事，是让AI更透明。

GPTZero成ChatGPT杀手

在ChatGPT成为学生的「偷懒」神器后，教育和科学研究机构不得不抵制这个恶梦。

纽约教育部宣布禁止学生在公立学校使用ChatGPT；知名的「国际机器学习大会」（ICML）也宣布禁止发表包含由ChatGPT和其他类似系统产出的论文，以免出现「意外后果」。

广告-请继续往下阅读

出于学术界对使用ChatGPT道德问题的担忧，Tian在一家咖啡店里，花一个寒假的时间，研发GPTZero，希望能让学术界恢复严谨性。

Tian年仅22岁，目前仍是美国普林斯顿大学的大四学生，主修计算机科学专业，专门研究自然语言处理，同时辅修认知科学和新闻学。

他还曾是英国广播公司（BBC）和开源情报网站Bellingcat的研究员，也曾是被微软收购的分析公司Miburo Solutions的分析师。在那里，他监测假讯息和机器人验证。 Tian认为，所有的经历，都是他研发GPTZero的动力。

2023年1月2日，Tian将GPTZero发布到网路，预计只会有几十个人会尝试它，完全没想过，这会掀起一场世界级的轩然大波。在他把这款软体上传到网路上的几小时内，竟有超过2000人在Steamlit测试GPTZero的公开版本。

1月5日，发布的第三天，Tian更新了GPTZero，显著降低它的误报率；此时，新程式已有超过1万的用户量了！ Tian也不禁对它的「爆炸性增长」和「病毒式传播」震惊。

据NPR报道，一周内有3万多人试用了GPTZero，甚至「导致该软体因出乎意料的高流量」崩溃，GPTZero使用的免费平台Streamlit介入，以更多容量和资源处理网路流量、支持Tian。

Tian在一支影片中，展示了软体如何区分人类或人工智慧撰写的文本。

GPTZero怎么运作？

GPTZero的工作原理就是检测文本的「困惑度」（Perplexity）和「突发性」（Burstiness）这2项指标，分别针对2个指标打分数。再根据统计学确定，文本是由人工智慧写的还是人类写的。总的来说，当2项参数得分都很低时，该文本很可能出自AI之手。

「困惑度」（Perplexity）

这里所说的「困惑度」，是指人类书写语言的复杂性和随机性。这个指标主要衡量一个句子中的随机程度，及一个句子的构造方式，是否让GPTZero感到困惑。

每当用户在GPTZero输入一段测试内容，它就会分别计算出：「文字总困惑度」、「所有句子的平均困惑度」、「每个句子的困惑度」。

这些数值越低，越能说明GPTZero对文本非常「熟悉」，那它很可能就是由AI生成；相反的，如果这些数值越高，就越能说明文本中句子的构造或用词方式，让GPTZero感到「惊讶」，那么它有更高的可能是出自人类之手。

这是因为，人工智慧接受过数据库的训练，产生的文本在一段时间内，表现出的困惑度会更平均和稳定，选词的可预测性也更高；人类书写的文本并不会这样，真人的用字遣词通常会比较随机，较容易写出出乎意料的词句。

可以使用GPTZero 检测文字是否由ChatGPT生成。

使用GPTZero 检测文字是否由ChatGPT生成。 (来源：Twitter)

「突发性」（Burstiness）

「突发性」，则指来自人类使用的句子结构变化。这个参数主要是比较句子复杂性的变化，衡量它们的一致性。

这是因为，人类倾向于书写高度复杂的文本；而AI产出的文本则是低复杂度的；此外，人类的思维结构并不是线性的，AI的句子结构则遵循类似的模式。

这意味着，人类使用句子结构，会在长而复杂的句子、短而简单的句子之间摇摆不定，有更多句式变化。像是复杂和简单交替并存，一个长难句之后，出现简短的句子；而机器生成的句子则更加统一，很少会有一系列长度相差很大的句子。

简而言之，在选词上「简单」而「熟悉」，并使用「统一整齐」的句子，是人工智慧生成作品的标志特征；更复杂和多样的东西，则是人类写的。这也是「困惑度」和「突发性」这2项指标可以作为衡量标准的原因。

除了Tian本人对GPTZero进行测试之外，也有不少网友用它对ChatGPT、GPT-3衍生工具生成的内容进行多次测试。最终结果显示，GPTZero每次都能抓住AI生成的文本，并在十多个案例中，正确的识别人类写的文本。

GPTZero一炮而红，让Tian获得来自a16z、 Menlo Ventures和Red Swan等知名创投的青睐。不过，面对Twitter私讯和电话轰炸，Tian显得异常冷静，他谦逊的表示自己不会拒接投资者打来的电话，但他不会忘记自己仍是一位即将毕业的大四学生。

同时，他还表示自己的GPTZero尚未完成，仍需改进和进一步的开发，甚至计划让大家继续免费使用他的程式，用来支持各地新晋老师的工作。

AI技术产生文本，如何不被滥用？

对于GPTZero这一个辨别文字是否为AI写作的新程式，Twitter上的舆论褒贬不一。以教师为代表的成年人大多喜闻乐见，但学生却讽刺GPTZero的创造者Tian是「学术缉毒警察」。

的确，当GPTZero推出时，Tian收到许多教师对该应用程式检测AI文章的积极回馈，来自世界各地的教师也都对Tian表达他们的感激之情，因为这大大减轻了他们的教学难度。当然，也不难理解，不少学生不看好Tian这款打击学术偷工减料、不劳而获的软体。

OpenAI也在打造AI文本检测器

但，在做这件事的不只有Tian，ChatGPT的开发商OpenAI自己，也已经承诺要防止人工智慧剽窃。

2022年12月，OpenAI专注于人工智慧安全的研究员Scott Aaronson透露，公司正在努力开发「缓解措施」，用一种「不易察觉的秘密讯号」在GPT生成的文本打「浮水印」，以识别来源、打击作弊的系统。

这项技术将透过微妙的调整特定单词发挥作用，读者不会注意到，但对于任何寻找机器生成文本痕迹的人来说，这在统计上其实都可预测。

OpenAI公司发言人表示，「我们把ChatGPT当作测试新技术，希望从现实世界的应用，进行学习。我们认为这是开发、部署功能强大且安全的AI系统的关键。我们会不断吸取回馈和经验教训。」

此外，OpenAI联合哈佛等高校机构联合打造一款检测器：GPT-2 Output Detector。

作者们先是发布了一个「GPT-2生成内容」和WebText资料集，帮助AI理解机器语言和人类语言之间的差异。

随后，用这个资料集对RoBERTa模型微调，就得到了这个AI检测器。人类语言一律被识别为True，AI生成的内容则一律被识别为Fake。

值得一提的是，RoBERTa是BERT的改进版。原始的BERT使用13GB大小的资料集，但RoBERTa使用的是包含6300万则英文新闻、160GB的资料集。

尽管如此，还是有不少人认为「AI文本检测器」，注定是一场会失败的「军备竞赛」，实际效果并不理想，更无法阻挡ChatGPT等AI语言模型的发展。

AI文本检测器的目的，不是为了反AI

尽管Tian建立了GPTZero，他并不反对使用ChatGPT等人工智慧工具。他认为GPTZero应用程式的目的，不是要阻止使用新技术，而是提供负责任使用新技术的方法，并有必要的保护。

同时，比起对抗或者禁止一项技术，也许更重要的是，如何为其使用定下规范和标准。例如，在广告、影视及娱乐等行业，对于AI生成内容的容忍度，可能要适当的提高；在学术、教育和科研领域，非常强调准确性和原创性，对AI产生内容的容忍度就要低一些。

如何确定使用AI工具的「透明度」，可能要比研究如何「反AI」，要更有效，也更有意义。