"这个句子是由AI写的吗?" 这已经成为了今年的核心问题,类似于哈姆雷特在考虑一个掏空的头骨时的永恒难题。它概括了我们21世纪关于虚假新闻、黑客帝国和错误信息的不确定性。
对于2023年在线阅读内容的人来说,这个问题至关重要。相反,对于在2023年在线创建内容的人来说,他们可能更愿意不回答这个问题。

我把它称为匹诺曹悖论:作家是“真正的人类”还是技术娴熟的造假者?
AI作家参与了一场与冷战谍战类似的幕后斗争。在那个时代,间谍交换编码消息,使用欺骗,并利用他们时代的技术来获得优势。现在,我们的“间谍活动”围绕着信息和内容创作展开。这类似于图灵测试,一些文案撰写人采用虚假身份,试图掩盖AI在他们的工作中所扮演的角色。
这个数字化的暗影领域类似于一场间谍游戏,在这个游戏中,创作者和消费者必须具备辨别、怀疑和警觉的能力。随着AI功能触手可及,我们手中的牌比以往任何时候都更强大,了解何时以及如何使用它们是我们最好的防御和这场游戏的精髓。
如果您只是想要简洁的提示而不需要背景解释,请随时跳转到下面编号的列表“AI内容的19个明显迹象”!
读者不应仅仅依赖于内容检测器,同样,使用AI辅助的作家也不应害怕大科技公司的意图。一直有传言说AI会对SEO产生负面影响,并且搜索引擎算法会保护读者免受非人类生成的内容。但事实并非如此,而且几乎不可能实施。归根结底,语言就是语言。虽然SEO优先考虑相关性、参与度和真实性,但它无法区分AI和人类编写的文本。事实上,不是所有低质量的内容都是由AI生成的,而在熟练的手中,AI生成的内容可能会令人印象深刻。
识别AI生成的内容是我培养出的一种技能。我在扑克桌上就像詹姆斯·邦德一样。这是我的职业;我可以看出一个很好的虚张声势。我不依赖于明显的标志,比如“AI写作没有情感”。情感只会引人误解(而且排除了许多技术精湛的客观人类作家,他们精巧而微妙地进行创作)。我搜寻模式、重复或特定短语或引用的过度使用。我仔细研究内容的流动、例子的选择以及在一篇文章中涵盖的主题的广度和深度。这是我在二十年的文案撰写、助理编辑、学术和审阅工作中锤炼出的技能。
(顺便说一下,有科学证据支持这一点。有些人更擅长识别AI生成的内容:那些有生成式AI经验、深入研究其涨跌和流动的人以及接受过密切阅读训练的人)。
在本文中,我将揭示如何运用关键分析,即学术界教授的那种深度阅读,来揭示AI生成的内容。您可以使用这些知识来自行识别这种内容,或者对其进行编辑和掩盖明显迹象。我必须强调,如果您使用这些技巧来掩盖AI内容,它们也将提高您的写作技能,这只会是积极的结果,对吧?
最终,未来的决定将取决于内容的质量和可读性,而不是它是否是人机合作的产物。
为什么不在这个过程中使用测谎仪呢?两者都以不可靠而闻名。然而,大多数人对使用测谎仪表示担忧。
事实上,AI内容检测器不如多次尝试以及充分研究经过多次验证的测谎仪可靠。2023年7月,由于可耻的74%的失败率,OpenAI停止使用其AI分类器。
沃顿商学院的教授兼科技专家伊桑·莫利克(Ethan Mollick)警告不要使用AI检测器,因为它们的误报率很高。然而,这些检测器继续使用,为AI内容间谍战的哪一边站立,它们要么提供虚假的信心,要么提供虚假的焦虑。
(这种情况类似于漫威的《秘密入侵》,在那里每个人都是潜在的渗透者,我们无法再分辨出屏幕背后的谁是真正的人类)。
Turnitin在短短三个月内(2023年4月至6月)评估了3800万份学生论文,以查找AI生成的内容。然而,该公司承认其算法错误地将4%的句子标记为AI生成的。这意味着潜在有180万篇论文被错误地标记为“AI内容”。《华盛顿邮报》的一项非正式实验发现,Turnitin在超过50%的情况下是错误的(n=16)。
在最近的教育者FAQ中,OpenAI回应了这个尴尬问题:
“AI检测器有效吗?简而言之,不行。虽然一些(包括OpenAI)发布了声称可以检测AI生成内容的工具,但这些工具都没有被证明能够可靠地区分AI生成和人类编写的内容。”
不管它们在识别AI方面是否有效,检测器都被广泛使用。如果您使用AI进行写作,最好避免引起任何警告信号。
具有讽刺意味的是,我们可能需要采用AI内容检测器回避策略,用于原始人类工作。这类似于在写作风格、词汇和语法中添加类似CAPTCHA的层,以避免检测。矛盾的是,这可能会导致修辞和写作技巧的提高。
因此,我列出的AI内容的明显迹象的清单对于真正的人类作家和受AI辅助的作家都很有价值。这是关于避免陈词滥调并提供价值的内容。
-
-
-
-
-
-
-
还有其他的一些检测工具,可以参考我的AI导航站 https://huiai.vip 中的内容检查模块查看
使用AI内容检测移除工具(Undetectable.ai)
规避AI内容检测器的一种方法是使用专门设计用于绕过它们的工具。这一类别中的领先工具是Undetectable.ai。
Undetectable.ai是一款真正无法检测到的AI内容写作工具。它允许用户通过其系统运行来自任何其他AI写作工具的AI生成内容。根据您的需要使用这些信息;我只是告诉您它的存在,这是不断升级的AI武器竞赛中的一部分。
Undetectable.ai利用联合多模型架构,使用自定义和微调的模型来识别潜在的引人注目的文本,删除它,并自动重新表述它。无论这种重新表述是否更类似于人类(或者只是AI检测器无法检测到),都由您来决定。
AI检测工具包主要衡量两个主要指标:困惑度和突发性。我之前已经详细讨论过这两个指标。
基本上,“困惑度”指的是一句话中下一个词有多么可预测,而“突发性”则指的是句子的一致性(人类写作时句子长度各异,而AI更加一致)。这些相同的指标也用于衡量LLM(大规模语言模型)的性能水平。
AI内容检测器采用生成对抗性方法(不用担心,我会分解解释)。检测器基本上会问:“我会写成这样吗?”或者更确切地说:“我会以这种方式完成句子的下一个词吗?”
这是一个游戏,对抗性的AI(检测器)试图预测下一个可行的词。这实际上是AI的写作方式(基于统计结果,逐词逐句进行过程化生成)。如果它猜对了,那么很有可能是类似的AI模型生成了原始文本。
红皇后的难题:为什么我们可能永远无法可靠检测AI ?
这在某种程度上是有益的,但这要求两个AI使用相同的词汇表。您可以通过组合不同的模型来绕过任何一个检测器。许多AI文本生成器利用多个LLM,并在适用的情况下切换到最合适的模型(例如,Jasper AI使用OpenAI、Neo X、T5、Bloom以及专有模型)。
此外,回到我们的冷战类比,这是一场军备竞赛。最新的AI语言模型越来越流利和类似于人类,这加大了对更强大的AI检测手段的需求(这些手段通过对抗过程进行训练)。反过来,像Undetectable.ai这样的模型则经过训练,以绕过那些技术。最终,这反映了红后的困境:“你必须尽力奔跑,才能停留在原地。”
计算机科学家警告说,“最终,AI写的文本并没有什么特别之处,总是可以被区分出来”,但根据我的经验,还有一个修辞元素不容忽视。这就是我们的人类直觉。
当我们处理基于语言的AI时,熟悉修辞手法的知识是我们最好的防御。批判性阅读是对抗AI内容的解药。尽管技术以极快的速度发展,但人际沟通中微妙的细微差别和不完美之处仍然具有内在价值。
在AI模型生成描述性或连接性内容的情况下,它们往往依赖于默认机制来连接思想或提供参考,即使这种方式是重复的或在语境上不完全合适。过度依赖这些设备会使内容显得不真实,更像是机器模仿人类语言模式而不是真正的人际交流。
问题不是AI文本不再像人类写作那样,而是AI模拟了人类散文的结构和韵律得太过完美,没有捕捉到真正人际交流中的自发性和不可预测性。虽然AI可以复制框架,但它牺牲了微小的偏差和独特的表达方式,以换取一致性和技术上的正确性。
要发现算法无意中在不断寻找模式、一致性和机器驱动的精确性中产生的笨拙陈词滥调,需要一个对语言的微妙差异和特点敏感的人,而不是遵循规范和技术上正确的机器。
1、复制粘贴的迹象。这个特点很荒谬,但它悄悄溜过了《自然科学》杂志的编辑,所以值得重复一下:寻找短语“Regenerate response”或“as an AI language model, I”。这是直接从聊天窗口复制粘贴的明显迹象。
2、教科书般完美的拼写。由于它是一个大规模语言模型,AI知道几乎每个词是如何拼写的。此外,AI不会犯拼写错误
3、中庸的观点。AI生成的内容是不明确或过于中立的。这种倾向是因为AI模型旨在避免显示偏见或引起冒犯,以迎合广大受众。该内容通常采用一种“一方面,另一方面”的方法。这与平衡的观点不同,平衡的观点会权衡利弊,但也可能得出结论。AI的方法更多地是为了规避风险。
4、过度使用“至关重要”。一旦您意识到它在AI生成的内容中的普遍性,词语“关键”、“至关重要”就会像疼痛的大拇指一样显眼。一个明显的迹象是在公式中反复使用,比如“当你[插入活动;通常是‘学习关于x’或‘在x中开始’]时,这是至关重要的…”。虽然这个词在某些情况下可能非常关键,但留意重复模式有助于区分AI文本和人类写作。
5、“深入,潜入,发现”。AI对特定的词语模式有偏爱。其中之一是在行动号召(CTAs)中使用动词“深入”,“潜入”和“发现”。特别是在后面跟着“…进入令人兴奋的x世界”时,这种情况尤其容易识别。这是一种文案技巧,但在注意到它在AI生成的内容中的频率后,我个人已经避免使用它。
6、“解锁”。另一个要避免的词语。在AI营销中特别常见。
7、“确保”。AI比任何合理的人都更多地使用这个词。
8、“一点点x”。这是AI现在唯一使用的口语表达。
9、过度使用指示代词。英文中高频率使用“the,this,these,that,those”等词语可能是AI的指示符。Google Brain的达芙妮·伊波利托(Daphne Ippolito)说“一个非常容易的线索是词语“the”出现太多次”。指示代词是英语中最常见的词语之一。因此,在生成内容时,AI模型倾向于频繁使用这些词语,因为它们在训练数据中是统计上常见的。
10、以“记住…”开头的句子。当你遇到一篇不断“提醒”读者的内容时,这可能是AI的迹象。作者会中断以让读者关注随后的观点,这种修辞手法被称为撇号(Apostrophe)。例如,以“记住”开始,后面跟着一个逗号,是AI模型最喜欢使用的撇号之一。当然,值得注意的是,人类作者也会使用相同的修辞手法。不同之处在于它们应用这些手法的频率。AI可能会过度使用或应用这些手法,而人类不会。
11、 隐喻+三部曲结构。这种模式通常是“[主题]不仅仅是[基本描述或字面解释];它是[更深层或隐喻解释] [动词] [更广泛的背景或意义,表现为三部曲]”。例如:“阅读不仅仅是一种爱好;它是连接我们社会历史、想象力和集体意识的桥梁。”当您开始注意到这种修辞手法——在隐喻后面紧跟着一个三部曲以强调其重要性——您将开始在AI生成的内容中随处可见它。
12、不能构建反序词法。这个有点难以解释。反序词法是一种修辞手法,其中句子中词语的预期顺序被颠倒。它用于创建特定的强调或诗意效果。在最明显的情况下,它是典型的尤达说话方式(“Powerful you have become. 你已经变得强大了”)。反序词法也可以在日常语言中找到;它也在广告中用来使简单的短语更具记忆性或立即识别性。例如,“Like a good neighbor, State Farm is there。国家农场就在那里,像一个好邻居”。我之前写过关于如何让ChatGPT可靠地逆向写作以及这对AI如何处理语言的影响的文章。这是其中之一的含义。AI生成的文本是过程化的,即逐词逐句,因此不擅长形成反序词法所需的先见之明。AI倾向于避免做反转和语言上的高难度动作。所以:“AI不太可能写出这样一句话”。
13、无法制造“catachresis”。这是另一种难以描述的修辞手法,但一旦您理解,就能明白。AI从不写错任何事情,但人类有时会有意写错。当某事错得如此正确时,那就是“catachresis”。它隐藏在许多网络迷因和歌词背后,非常引人注目。例如,“因为原因”,“他们不认为事情是这样的,但事实确实如此”。人类作者使用不传统的语法和措辞,违反常规,以传达幽默、情感和独创性。AI过于专注于做对事情,不知道何时打破规则。
14、“在今天的世界中”。即使这不是AI的产物,请将其淘汰。
15、“将您的x提升到下一个水平”。除了红牛电影宇宙之外,没有人会这样说。在线营销和广告中充斥着充满热情的术语,但大多数现实生活中的对话都会避免使用如此夸张的说法。经过从网络获取的大量数据训练的AI模型倾向于过分夸大时髦的时髦词汇。
16、“精通”。不行。营销材料可能会提到“精通”新技能、平台或工具。但在2023年已经过时了。
17、对立并列。这是常见的修辞公式,两个对立的观点并列在平行结构中。想想诸如“从最古老的传统到最新的趋势”或“无论您是老手还是新手”的短语。虽然人类作者也使用这种结构,但过度使用这种结构可能是AI的一个特征。
18、括号和短横线的使用有限:虽然括号和短横线在人类写作中很常见,用于创建细微差别或提供旁白——作者喜欢用短横线强调或在括号中藏起额外的想法(我承认我有这个毛病)——但AI通常更喜欢更直接的句法结构。标点符号的缺失或罕见可以作为一个暗示,表明您正在阅读AI生成的内容。
19、“如果您和我一样”。这是AI版本的史蒂夫·布西米(Steve Buscemi)迷因“你好,伙计们”的版本。你好,亲爱的人类。
“所以,这就是全部!”这是AI在总结文章或博客帖子时常用的结束语。AI经常在复杂问题或讨论结束时,把问题过于简单化,通常跟着主要观点的简要重述,暗示了一种不符合主题的人工封闭感,无法像人类那样具有上下文的理解或分辨细微差别。
过多使用这些短语可能更像是AI模仿流行的言辞,而不是真正的人际交流。
希望上述内容能帮助您确定谁是谁。正如我们讨论过的,特定短语在不太合适的情况下的不自然频率,可以作为AI生成内容的一个明显迹象。
然而,这不仅仅是关于确定谁或什么写了内容,而是关于评估这篇文章的附加价值。它是否启发了您?它是否引起了您的兴趣?还是它只是重复使用了可识别的短语?在未来,文本是由AI还是人类编写将不再重要,而重要的是它是否增加了价值。
掌握了这种理解,一个人变成了内容侦探,剥开修辞的层层外衣,揭示了文本的真实本质。这是一种技能,就像反情报的艺术一样。人们学会了从朋友和敌人中挑选出来。未来的战场不是AI与人类之间的战斗,而是有意义与无意义之间的竞争。
将这与扑克世界相提并论,AI根据它所拥有的牌(数据)来打牌。AI倾向于依靠熟悉的、经过考验的策略。但为什么呢?这归结于它的训练数据和程序生成的可预测性。AI从大量信息中学习,在写作领域,陈词滥调丰富多样。AI从这些数据中捕捉到语言模式,并基于“句子中下一个词是什么”来生成。当然,这会重复和放大语料库中存在的陈词滥调。它回归到了一个平均值。对于AI来说,这些短语不是陈旧或过度使用的,它们是统计上的安全选择。
生成对抗网络(GAN)AI检测器侧重于逐词逐句的程序性基础(就像AI生成器本身一样)。因此,它们忽视了更广泛的散文。这意味着它们在预测序列中即将出现的词语时会迷失方向,而忽略了一个经过批判性阅读培训的敏锐人眼可能会注意到的过度使用的陈词滥调。
我的批判性阅读方法不同于(容易出错的)AI内容检测器。与容易出错的AI内容检测器侧重于个别词语的可能性不同,我的方法聚焦于常见的修辞手法。
当AI玩出一手陈词滥调时,明智的读者、聪明的牌手决定是叫牌还是弃牌。最终,问题不在于人还是机器,而在于真实性、洞察力和内涵。只有人类可以真正识别真正的洞察和价值。
所以,在战争中,无论是国家之间的还是人工智能之间的,真正的力量和胜利都在于理解、判断和洞察,而不仅仅是技术的应用。了解AI生成内容的特点是一步,但更重要的是如何将其与人类的表达方式区分开来,以更好地应对不断增长的信息战场。
总之,AI生成内容的陈词滥调是一个有趣的话题,它可以揭示AI在写作中的模式和缺陷。对于AI检测器来说,这是一个潜在的线索,可以帮助区分AI生成的内容和人类写作。然而,重要的是要记住,人类的审查和判断仍然是最终的关键,因为AI可以学习并改进,但它永远无法捕捉到人类语言和思维的所有复杂性和细微差别。