复制成功

分享至

网站首页 > 快讯 >

人工智能检测器声称《独立宣言》98%是人工智能生成的

2024.10.15

小心,作弊者——AI 检测器来了,要抓住你和你的聊天机器人。

或者,至少,这就是 AI 开发者用作卖点并希望我们相信的。当 ChatGPT 在 2022 年进入文化潮流时,教师和教授对 AI 生成的研究论文和作业的激增感到震惊。为了遏制课堂上 AI 的使用,教育工作者一直在使用声称能够区分 AI 写作和人类写作的 AI 检测器。

但这些工具的准确性如何?根据波士顿营销分析公司 Trust Insights 的首席数据科学家 Christopher Penn 的说法,“AI 检测器是个笑话。”他测试的一个 AI 检测器声称美国《独立宣言》的前言中有 97.75% 是 AI 生成的。

“促使我测试 AI 检测器的原因是看到同事们争论内容是否是 AI 生成的,”Penn 告诉 Decrypt。“我在 LinkedIn 上看到这一点;一些人互相指责某某是懒惰的营销人员,走捷径,只是使用 AI。”

这是斗争的言辞吗?也许。Penn 说:“我们可能应该测试一下,以了解这是否真的如此。”

Penn 决定使用《独立宣言》测试几个 AI 检测器,他对发现的结果感到失望:“我认为它们很危险,”他对这些检测器说。“它们不够复杂且有害。”

“这些工具被用来做一些事情,比如取消学生资格,将他们置于学术观察或停学状态,”他说。这是“一个非常高风险的应用,因为在美国,大学教育每年要花费数万美元。”

我们决定进行自己的测试,看看这些网站的表现如何。在第一次测试中,我们使用了 Penn 从《独立宣言》中提取的相同摘录,以确定哪些检测器错误地认为文本是 AI 生成的。在第二次测试中,我们取自 E.M. 福斯特 1909 年的科幻短篇小说《机器停止》的摘录,并让 ChatGPT 重写它,以查看哪个检测器将该段落识别为 AI 写作。以下是我们的结果:

使用 Penn 使用的相同文本,我们比较了几个 AI 检测器:Grammarly、GPTZero、QuillBot 和 Penn 在其 LinkedIn 帖子中展示的 ZeroGPT。

从最好到最差:检测人类写作的文本

  1. Grammarly。在我们测试的四个中,Grammarly 在检测人类和 AI 生成的文本方面表现最佳。它甚至提醒我引用我的工作。

  2. Quillbot 的 AI 检测器也将《独立宣言》的文本识别为“100% 人类写作”。

  3. GPTZero 给《独立宣言》的人类写作概率为 89%。

  4. ZeroGPT 完全搞错了,表示《独立宣言》的文本有 97.93% 是 AI 生成的——甚至比 Penn 本月早些时候的发现还要高。

在下一个测试中,我们通过 ChatGPT-4o 重写了《机器停止》的文本,以查看 AI 检测器是否能识别出伪造的写作。

从最好到最差:检测 AI 写作的文本

  1. 在比较《机器停止》及其 AI 版本时,Grammarly 在检测 AI 生成内容方面最为有效。

  2. GPTZero 将原始故事识别为 97% 可能是人类写的,而 AI 版本则被识别为 95% AI 生成。

  3. Quillbot 无法区分人类和 AI 文本,给两者都赋予了 0% 的概率。

  4. ZeroGPT 将《机器停止》的文本识别为可能是人类写的,概率为 4.27%,但错误地将 AI 生成的版本标记为人类写作,概率为 6.35%。

“Grammarly 继续加深其在评估文本原创性和负责任的 AI 使用方面的专业知识,”Grammarly 的发言人告诉 Decrypt,并指向公司关于其 AI 检测软件的 帖子。

“我们将 AI 检测添加到我们的原创性功能中,作为我们对负责任的 AI 使用承诺的一部分,”该公司表示。“我们优先考虑为用户,特别是学生,提供尽可能多的透明信息,尽管该技术有固有的局限性。”

Grammarly 的发言人还强调了公司的最新更新,Grammarly Authorship,这是一个 Google Chrome 扩展,允许用户展示文档中哪些部分是人类创作的,哪些是 AI 生成的或 AI 编辑的。

“我们建议不要直接使用 AI 检测结果来惩罚学生,”GPTZero 首席技术官 Alex Cui 告诉 Decrypt。“我认为它作为诊断工具是有用的,但需要我们的作者工具来提供真正的解决方案。”

与 Grammarly 类似,GPTZero 也有一个“作者身份”工具,Cui 建议使用该工具来验证未来的内容提交是否由人类撰写。

“我们在 Google Docs 和我们自己的编辑器中的写作报告分析文档上的打字模式,以查看文档是否是人类写的,并大大降低错误结论的风险,”他说。

Cui 强调了在多样化数据集上持续训练 AI 模型的重要性。

“我们使用大型自然语言处理 (NLP) 和机器学习模型,这些模型在数百万个 AI 和人类生成的文档数据集上进行训练,并在发布前经过测试以确保低错误率,”他说。“我们调整了检测器,使其在正式发布前假阳性率低于 1%,以降低假阳性的风险。”

Penn 指出,盲目依赖 AI 检测器来发现抄袭和作弊与依赖 AI 撰写基于事实的报告同样危险。

“我对任何考虑使用这些工具的人表示谨慎的是,它们在任何关键任务或高风险应用中的假阳性率都不可接受地高,”Penn 说。“假阳性率——如果你要将某人开除出大学或撤销他们的博士学位——必须为零。就这样。故事结束。如果机构进行了如此严格的测试,他们会很快发现市场上没有一个工具可以购买。但这正是需要发生的事情。”

幸运的是,这篇文章中只有 5% 的内容被判定为 AI 生成。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKx资讯仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

相关推荐

industry-frontier