维基媒体遇难题:AI爬虫让带宽消耗疯涨,AI爬虫肆虐,维基媒体带宽消耗激增50%!

维基媒体基金会旗下维基共享资源的带宽消耗情况展开,揭示了自2024年1月以来带宽消耗激增50%的原因是AI爬虫,并阐述了这一现象带来的风险、成本以及对开放互联网的威胁,同时提及了一些应对措施。

维基媒体基金会作为维基百科以及十几个其他众包知识项目的管理组织,在本周三对外发布消息。自2024年1月起,维基共享资源在多媒体下载方面的带宽消耗出现了惊人的增长,激增幅度高达50%。

维基媒体遇难题:AI爬虫让带宽消耗疯涨,AI爬虫肆虐,维基媒体带宽消耗激增50%!

该基金会在周二发布的一篇博客文章中指出,这一激增现象并非是由于人类对知识的需求不断攀升所致,真正的“元凶”是那些想要训练人工智能模型的自动化、数据饥渴的抓取工具,也就是所谓的爬虫机器人。

在这篇博客帖子中提到:“我们的基础设施原本是为了应对在高关注度事件期间来自人类的突然流量激增而建立的。然而,爬虫机器人所产生的流量却是前所未有的,它给我们带来了越来越大的风险和成本。”

维基共享资源是一个极为便利的存储库,这里面存储着可自由访问的图像、视频以及音频文件,这些文件要么可以在开放许可下使用,要么就属于公共领域。

维基百科经过深入的研究后发现,在最“昂贵”的流量,也就是在所消费内容类型方面资源最密集的流量当中,接近三分之二(65%)是来自机器人。不过,从整体页面浏览量来看,只有35%是由这些机器人贡献的。维基百科解释说,造成这种差异的原因在于,那些经常被访问的内容会在其缓存中更靠近用户,而其他不经常被访问的内容则被存储在更远的“核心数据中心”,从这个核心数据中心提供内容的成本会更高,而这恰恰是机器人通常会去寻找的内容类型。

维基百科还写道:“人类读者往往倾向于关注特定的(通常是相似的)主题,而爬虫机器人则倾向于‘批量阅读’大量页面,并且会去访问那些不太受欢迎的页面。这就意味着,这些类型的请求更有可能被转发到核心数据中心,从而让我们的资源消耗变得更加昂贵。”

综合来看,维基媒体基金会的网站可靠性团队不得不投入大量的时间和精力,耗费众多资源去阻止爬虫程序,目的就是为了避免对普通用户造成干扰。而且,这一切还没有考虑基金会所面临的云成本问题。

实际上,这一现象代表了一种快速增长趋势的一部分,这种趋势正在对开放互联网的存在构成威胁。上个月,软件工程师兼开源倡导者Drew DeVault就曾抱怨人工智能爬虫无视旨在抵御自动流量的“robots.txt”文件。而“务实工程师”Gergely Orosz上周也抱怨称,来自Meta等公司的人工智能爬虫增加了他自己项目的带宽需求。

尽管开源基础设施目前尤其处于风口浪尖的位置,但开发人员并没有坐以待毙,他们正在以“智慧和报复”进行反击。一些科技公司也在积极行动,努力解决这个问题。例如,Cloudflare最近就推出了AI Labyrinth,它利用人工智能生成的内容来减慢爬虫的速度。

然而,这更像是一场永无止境的猫捉老鼠的游戏,最终可能会迫使许多出版商不得不躲在登录和付费墙的后面,而这对于当今使用网络的每一个人来说都是有害的。

本文聚焦维基媒体基金会旗下维基共享资源带宽消耗激增现象,揭示AI爬虫是主要原因,阐述其带来的风险、成本及对开放互联网的威胁,同时提及各方应对措施,但目前这场与AI爬虫的较量如同猫捉老鼠,可能迫使出版商设限,对网络用户不利。

原创文章,作者:Sorrowful,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/49490.html

(0)
SorrowfulSorrowful
上一篇 2025年4月3日
下一篇 2025年4月3日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注