AI探测器声称《独立宣言》98%是由AI生成的

币界网报道：

小心，骗子们——人工智能探测器会当场抓住你和你的聊天机器人。

或者，至少，这就是人工智能开发人员使用的卖点，并希望我们相信。2022年，当ChatGPT进入文化时代时，教师和教授们对人工智能生成的研究论文和家庭作业的激增犹豫不决。为了遏制人工智能在课堂上的使用，教育工作者一直在使用人工智能探测器声称以区分人工智能书面文本和人类书面文本。

但这些工具有多准确？根据波士顿营销分析公司Trust Insights的首席数据科学家Christopher Penn表示：“人工智能探测器是个笑话。”他测试的一个人工智能探测器声称，美国97.75%的序言。独立宣言是AI生成的。

Penn告诉记者：“促使我测试人工智能探测器的是看到同事们来回争论，争论一段内容是否是人工智能生成的。”解密“我在领英上看到了这一点；一些人互相指责某某是一个懒惰的营销人员，走捷径，只使用人工智能。”

打架的话？也许。佩恩说：“我们可能应该测试一下，以了解这是否属实。”

Penn决定使用《独立宣言》测试几个人工智能探测器，并对他的发现感到沮丧：“我认为它们很危险，”他谈到这些探测器时说。“它们很简单，很有害。”

他说：“这些工具被用来取消学生的资格，让他们进入学术试用期或停学。”。这是“一个非常高风险的申请，因为在美国，大学教育每年要花费数万美元。”

我们决定自己做一个测试，看看这些网站的表现如何。首先，我们使用了Penn在《独立宣言》中使用的相同摘录来确定哪些探测器错误地认为文本是人工智能生成的。在第二次测试中，我们摘录了E.M.Forrester 1909年的科幻短篇小说“机器停止“并让ChatGPT重写它，看看哪个检测器将该段落识别为AI编写的。以下是我们的结果：

采用Penn使用的相同文本，我们比较了几种AI检测器：语法GPTZero、QuillBot和ZeroGPT，Penn在领英帖子中展示的人工智能检测器。

最糟糕的：检测人类书写的文本

语法。在我们测试的四个中，Grammarly在检测人类和人工智能生成的文本方面表现最佳。它甚至提醒我引用我的作品。
Quillbot的人工智能检测器还将宣言文本确定为“100%由人类编写”
GPTZero认为《独立宣言》有89%的可能性是由人类撰写的。
ZeroGPT完全证实了这一点，并表示《独立宣言》文本中97.93%是人工智能生成的，甚至高于宾夕法尼亚大学本月早些时候的调查结果。

在下一次测试中，我们进行了“机器停止“通过ChatGPT-4o重写文本看看人工智能探测器是否能发现伪造的文字。

从最好到最坏：检测AI书写的文本

在将“the Machine Stops”与其AI版本进行比较时，Grammarly在检测AI生成的内容方面最为有效。
GPTZero认为，原始故事97%可能是人类编写的，而人工智能版本95%是人工智能生成的。
Quillbot无法区分人类和人工智能文本，因此两者的概率都为0%。
ZeroGPT以4.27%的概率识别出“机器停止”文本可能是人类编写的。但错误地将人工智能生成的版本标记为人类书写的概率为6.35%。

Grammarly的一位发言人告诉记者：“Grammarley继续深化其在评估文本原创性和负责任的人工智能使用方面的专业知识。”解密，指向一家公司邮递关于其AI检测软件。

该公司表示：“我们正在将人工智能检测添加到我们的原创功能中，作为我们负责任地使用人工智能承诺的一部分。”。“我们优先考虑为用户，尤其是学生，提供尽可能多的透明信息，尽管这项技术存在固有的局限性。”

Grammarly发言人还强调了该公司的最新更新Grammarly-Authorship，这是一款谷歌Chrome扩展程序，使用户能够演示文档的哪些部分是人工创建、人工智能生成或人工智能编辑的。

GPTZero首席技术官Alex Cui表示：“我们建议不要使用人工智能检测结果直接对学生进行纪律处分。”解密“我认为它是一种有用的诊断工具，但需要我们的作者工具才能找到真正的解决方案。”

与Grammarly一样，GPTZero也提供了一个“作者身份”工具，崔建议使用该工具来验证未来提交的内容是否由人类编写。

他说：“我们在谷歌文档中的写作报告和我们自己的编辑器分析文档上的打字模式，看看文档是否是人工编写的，并大大降低了得出错误结论的风险。”。

崔强调了在多样化的数据集上不断训练人工智能模型的重要性。

他说：“我们使用大型自然语言处理（NLP）和机器学习模型，这些模型是在数百万人工智能和人类生成的文档的数据集上训练的，在发布之前经过测试，误差很低。”。“在发射之前，我们将探测器的假阳性率调整为低于1%，以降低假阳性的风险。”

Penn指出，盲目依赖人工智能检测器来发现抄袭和作弊与依赖人工智能撰写基于事实的报告一样危险。

“我对任何考虑使用这些工具的人的警告是，对于任何关键任务或高风险应用，它们的假阳性率都高得令人无法接受，”Penn说。“假阳性率——如果你要把某人赶出大学或撤销他们的博士学位——必须为零。句号。故事结束了。如果机构进行了严格的测试，他们很快就会发现市场上没有一种工具可以购买。但这就是需要发生的事情。”

值得庆幸的是，这篇文章中只有5%是人工智能生成的。

ZeroGPT和Quillbot没有立即回应置评请求。

编辑人安德鲁·海沃德