选择语言

选择语言

在人类和人工智能的帮助下,网站已被翻译成中文

解散

你的指标在说谎如何管理机器人流量对数据的影响

数据分析 数据分析, 数据成熟度 阅读需要 5 分 阅读
Profile picture for user Francisco Regoli

撰写人
Francisco Regoli
Analytics Project Manager

Image depicting a robot typing on a computer

根据 Cloudflare 的 "雷达报告",估计大约 40%的互联网流量都是由机器人产生的。对于我们这些从事市场营销和数据分析的人来说,这是一个大问题--僵尸流量会使我们的报告出现偏差,导致我们相信不准确的指标,而我们却往往浑然不知。对于数据来说,确保所有数据都被 正确收集已经很不容易了;但对于流量机器人来说,如何才能获得真正的洞察力呢?

针对这一问题,最流行的数字分析工具开始提供僵尸过滤功能。虽然激活这些功能是明智之举,但它们对网络上大量存在的各种类型的僵尸的有效性很低;更有甚者,它可能会过滤掉真实的、有益的僵尸流量,从而使数据偏向于不准确的流量。

总之,我们的数据岌岌可危。

bot filtering check box image

僵尸流量如何影响您的业务?

对于根据数据做出商业决策的公司来说,僵尸流量会对其数字战略产生不利影响。僵尸流量会扭曲转化率、跳出率、用户总数和会话等各种指标,导致无法解释的波动。此外,流量的增加还会提高数字分析工具的成本,因为许多定价模型都是基于访问量的。根据受僵尸流量影响的数据进行训练的人工智能工具和实施可能会产生不准确的见解。僵尸流量还会使服务器超载,导致页面加载时间变慢,严重时还会使用户无法访问网站,从而使网站陷入困境。在极端情况下,允许不需要的流量会造成安全漏洞,导致敏感信息泄露。

最近,我们的一位客户要求我们协助审查凌晨时分来自法兰克福的某些突然增加的流量,这与他们的历史数据不符。在对报告进行分析并交叉比对不同的可用维度后,我们发现,在某些时段,报告中记录的总用户中有 90% 的行为难以归因于人类。这不仅严重影响了数据质量,还因网站的访问量而产生了大量费用。

然而,影响数据质量的不仅仅是极端情况。即使是很小比例的异常情况也会导致不可靠的报告。那么,我们该如何阻止这种情况的发生并保持数据的可靠性呢?

了解敌人

有效对付机器人的第一步是了解它们。并非所有的机器人都是一样的;每种类型都需要独特的策略。一种常见的分类方法可以区分恶意机器人和非恶意机器人。让我们来看看恶意机器人的一些典型例子。

恶意流量机器人的类型

1.缩放机器人:

这些程序以迅雷不及掩耳之势抢购机票和其他限量供应的商品,然后以更高的价格转售。

2.垃圾邮件机器人:

专门用来向你的收件箱或信息中发送垃圾邮件,通常带有恶意链接。谁没有收到过恼人的垃圾邮件?

3.抓取机器人:

这些机器人会自动从网站上提取数据,通常会复制竞争对手的内容以获得优势。

另一方面,非恶意机器人可以快速处理繁琐的任务。它们会收集大量数据,否则需要几天甚至几个月的时间才能检索到这些数据,从而减轻人类执行重复性任务的负担。

有益的流量机器人类型

1.蜘蛛(网络爬虫):

谷歌的机器人是最先进的。它们在网络上不厌其烦地搜索视频、图片、文本、链接等内容。没有这些爬虫,网站就不会获得任何有机搜索流量。

2.反向链接检查器:

这些工具可帮助您查找网站或页面从其他网站获得的所有链接。它们对搜索引擎优化至关重要。

3.网站监控机器人:

这些机器人可以监视网站,并在网站受到黑客攻击或离线时向所有者发出警报。

我的目标并不是详尽无遗地介绍每一种机器人,因为它们都在不断发展。相反,我想强调影响我们过滤和删除策略的各种行为,以及其中的复杂性。最后,无论它们是好是坏,所有僵尸都是我们报告中不需要的,我们需要尽量减少它们对数据的影响。

使用正确的工具应对僵尸攻击

如今,您可以找到自动和手动策略来应对这一挑战。在自动解决方案中,僵尸过滤程序脱颖而出,它可以集成到分析工具中,也可以是人工智能驱动的僵尸检测专用软件。不过,如前所述,它们的有效性往往较低,而且在许多情况下,它们还需要支付相关费用。

另一方面,非自动化解决方案也能提供更好的效果,我们可以根据它们采用的过滤方法其进行分类:

反应式方法:在报告级别应用自定义筛选器。这种方法简单灵活,不需要在开发层面进行任何更改。这是早期检测的有效第一步。利用分析平台中可用的工具,如GA4 片段、Looker Studio 过滤器和数据仓库查询,可以轻松实施这种方法,不过这种方法的鲁棒性较差。

预防方法:在收集数据前实施过滤器。虽然这可能具有挑战性且需要大量资源,但它能有效防止对报告的影响,并限制机器人访问网站及其服务器。

建立数据质量审查周期

为了使我们的数据免受僵尸流量的影响,并确保最佳结果,最好采用一种将预防措施和反应措施相结合的综合策略。这就是所谓的数据质量审查周期,这是一种持续监控模式,旨在不断发现异常。这需要分析师、开发人员和产品所有者通力合作,找到有效的解决方案,以保障数据的完整性和可靠性。

graph illustrating the data quality review cycle

虽然我们无法完全消除报告中的僵尸流量,但积极主动地实施数据质量审查策略为我们提供了切实有效的方法来解决这一问题。

总结

  • 僵尸既可以达到有害的目的,也可以达到有益的目的;在这两种情况下,都必须将它们排除在报告之外。
  • 僵尸流量对数字战略和商业战略都有负面影响。
  • 虽然分析平台具有自动阻止某些僵尸流量的功能,但其效果有限。
  • 持续监控报告中的异常情况对于识别僵尸流量至关重要。
  • 为了避免不必要的流量影响,并确保数据不存在偏差或受到污染,有必要采取预防和应对措施。
  • 在工作流程中纳入数据质量审查周期,对于确保报告不受僵尸流量影响至关重要。

相关
思考

让我们的数字心跳加速

获取我们的时事通讯,了解最新趋势、项目等方面的灵感。

感谢您的注册!

更多信息,请访问您的电子邮件。

继续探索

Monks需要您提供给我们的联系信息,以便就我们的产品和服务与您联系。您可以随时取消订阅这些信息。有关如何取消订阅的信息,以及我们的隐私惯例和保护您隐私的承诺,请查看我们的隐私政策。

选择语言

选择语言

在人类和人工智能的帮助下,网站已被翻译成中文

解散