例如,查看来自流量有限的网站的这份基本报告。勾选表示该卡“未抽样”,并使用了 100% 的可用数据。(请注意绿色报告图标 - 对于抽样报告,该图标为红色。) GA 中的数据质量图标表示结果基于 100% 的可用数据 但对于流量大且报告更复杂的网站,如漏斗分析或群组分析,结果几乎肯定会被抽样。当比较多个数据集时,情况会变得更糟,例如,将两个用户细分相互比较或与基线进行比较。GA 中的 12 个月漏斗报告可能仅使用 48.3% 的可用数据,如下所示。 GA 数据质量图标显示结果基于 48.3% 的可用数据 GA 中的数据质量图标表明结果基于 48.3% 的可用数据 分析越先进,GA 和其他分析工具产生无法展现全貌的结果的可能性就越大。
Google Analytics 4 中的数据抽样变更 在 Universal Analytics 中,在停用之前,非抽样报告的最大样本量为 500,000 个用户会话。如果某个网站每月收到超过几千个用户会话,这很快就会成为一个问题。 随着 GA4 的变更,采样阈 墨西哥赌博数据 值现在设置为1000 万个“事件”。乍一听,这听起来像是一次大规模升级。但是,由于事件本质上是单独的数据行,因此必须考虑到每个会话可能代表数十个单独的事件,具体取决于报告。 因此,流量并不是唯一的限制因素。添加的次要维度越多,事件集就会增长得越大(呈指数增长)。
这通常意味着,如果重新运行以比较细分或添加更多细微差别,最初将开始使用抽样数据。 Google 表示,1000 万仅适用于“标准报告”。因此,即使事件数量少得多,复杂的报告也会很快开始依赖抽样数据。除此之外,关于抽样方法或 GA 如何选择随机样本的公开信息有限。 底线是什么?数据采样仍然会影响高流量资产和使用高级报告的营销人员。使用自定义维度或事件是另一个限制因素。 进一步阅读:您应该了解的 10 个 Google Analytics 关键限制 为什么数据采样会成为网络分析的问题 Google Analytics 官方解释了他们为何使用数据抽样,举了一个例子,即通过从一英亩的数据推断出大片区域的树木数量。