阻止人工智能机器人抓取网站获得Cloudflare的支持

币界网报道：

全球互联网安全公司Cloudflare声称保护了全球近20%的网络流量，它为想要阻止人工智能服务访问其内容的网站所有者推出了所谓的“简单按钮”。此举正值对用于训练人工智能模型的内容的需求激增之际。

Cloudflare的核心服务作为互联网代理，在网络流量到达网站之前对其进行扫描和过滤。该公司表示，其网络平均每秒收到5700多万个请求。

Cloudflare在周三的公告中表示：“为了帮助内容创作者维护一个安全的互联网，我们刚刚推出了一个全新的‘简单按钮’来屏蔽所有人工智能机器人。”。“我们清楚地听到，客户不希望人工智能机器人访问他们的网站，尤其是那些不诚实的人。”

虽然一些人工智能公司正确识别了他们的网络抓取机器人，并尊重网站的指示，远离它们，但并非所有公司都对自己的活动透明。

新的简单设置正在向所有Cloudflare客户提供，包括其免费层的客户。

剖析AI机器人活动

在宣布这一消息的同时，Cloudflare还分享了大量关于其在系统中观察到的人工智能爬虫活动的信息。

根据Cloudflare的数据，6月份，人工智能机器人使用Cloudflare访问了排名前100万的“互联网属性”中的约39%。然而，只有2.98%的房产采取措施阻止或质疑这些请求。Cloudflare还提到，“一个互联网属性的排名越高（越受欢迎），就越有可能成为人工智能机器人的目标。”

该公司表示，TikTok所有者字节跳动、亚马逊、Anthropic和OpenAI运营的网络爬虫最活跃。排名第一的爬虫是字节跳动的Bytespider，它在请求数量、活动范围和被屏蔽频率方面位居榜首。GPTBot由OpenAI管理，用于为ChatGPT等产品收集训练数据，在爬行活动和区块方面均排名第二。

图片：Cloudflare

困惑的网络爬虫最近因其内容爬行行为而引起争议，被检测到访问了Cloudflare保护的网站的一小部分。

图片：Cloudflare

虽然网站所有者可以实施自己的规则来屏蔽已知的网络爬虫，但Cloudflare还表示，其大多数这样做的客户只是屏蔽了OpenAI、谷歌或Meta等更主流的人工智能开发者，而不是字节跳动或其他公司的顶级爬虫。

人工智能与人工智能

Cloudflare的报告强调了一些人工智能机器人运营商是如何采取欺骗策略来避开阻止他们的措施的，试图将他们的爬虫活动冒充合法的网络流量。

Cloudflare写道：“不幸的是，我们观察到机器人操作员试图通过使用伪造的用户代理，看起来像是一个真正的浏览器。”。

事实证明，人工智能是该公司阻止自动化活动的关键工具，无论是来自人工智能开发人员、搜索引擎还是恶意攻击者。Cloudflare表示，它使用机器学习模型为向受其服务保护的网站提出的每个请求分配“机器人程序分数”，分数低表示该活动合法的可能性低。

利用Cloudflare关于全球互联网流量的庞大数据集，该模型考虑了许多信号，包括请求的IP地址、用户代理和行为模式，以确定机器人程序得分。

图片：Cloudflare

为了说明这一点，Cloudflare表示，它研究了一个以躲避行为闻名的特定机器人的流量。结果很有说服力：所有检测结果的得分都在30分以下（满分100分），其中绝大多数属于倒数两个区间，表明得分在9分或以下。换言之，即使试图掩盖其来源，机器人的活动模式也会泄露它——允许Cloudflare屏蔽它。

保护web内容

生成的人工智能模型依赖于大量的现有内容，其中大部分是从网络上收集的。为了让人工智能继续提供当前的信息，其开发者需要继续大规模收集信息。

随着新闻机构等大型出版商对人工智能公司采取法律行动，网站所有者和内容创作者正在进行反击。在上述“困惑”一案中，《福布斯》和《连线》等出版物声称其未经许可擅自获取和重新发布内容。音乐出版商索尼在5月份先发制人地警告700多家科技公司远离，本周华纳音乐集团也采取了同样的行动。

如果人工智能越来越多地向用户提供信息而不向用户提供来源，那么对出版商来说，这种威胁可能是存在的。SparkToro首席执行官Rand Fishkin最近发表的一项研究表明，60%在谷歌上搜索信息的人停止访问提供信息的网站，因为谷歌的人工智能立即提供了总结答案。

由Ryan Ozawa编辑。