如何快速识别虚假流量
做过广告活动网站分析的朋友应该很有体会,虚假流量,也就是我们常说的作弊流量,是分析过程中的一块毒瘤。如果其所占整体流量比率较大的话,可能会得出完全不正确的分析结果,因为他代表的就是趋势。但是还好,也许因为占的比例到了一定的数量,他们的小辫子也变得更容易抓住。总结我这么长时间以来遇到的情况给大家作为一个参考,希望对大家会有所帮助。这个总结会包括两个部分:广告和网站,这两个阶段分别都有不同的衡量标准,而且会有不同的作弊方式。
广告部分:
原理:
衡量广告表现主要是这几个基本参数:Impression(曝光,也就是广告的展示次数),Click(点击次数),CTR(点击率,点击/曝光),但是有一点代码基础的都知道,Impression和click作弊起来是非常简单的,因为它的原理很简单:曝光代码一般来说就是一个1x1像素点图片请求,每被请求一次数量便+1,因此可以被放在任何页面刷,甚至可以写个循环无限刷,想刷100W次那就不会是101W;点击代码也是一个url请求,举一个doubleclick点击代码的例子:
http://ad-apac.doubleclick.net/clk;25685425;95242356;v?http://jackie.ms
从开始到第一个问号为止,这一部分是跳转到doubleclick服务器计数,然后通过301跳转到我的网站。所以同样是url请求,刷起来根本没有难度,但是同时要注意到,广告监测系统虽然没有直接的流量过滤鉴别功能,但是你可以通过它统计到的各维度数据来推出你要的结果。下面介绍一下广告监测系统能监测到什么东西吧:
首先我们看一下当你点击一个链接,实际上发生了什么:
** 鉴别:**
广告端的鉴别可以做的其实很有限,做法也比较单一。首先,不要先入为主地认为它是虚假流量,而是根据已经拿到的数据发现问题然后再查找原因。下面列举一些常见的例子:
发现问题:
1、某个流量来源流量一段时间内毫无变化规律,波动较大
2、某个来源流量与预估值相差数倍
3、某个来源流量出奇平稳,几乎没有变化(预估是20W,从周一到周日每天不会多于20W2K,不会少于20W零500)
4、某个位置在一天内各个小时流量没有变化(没有随作息时间变化而变化)
以上都是我遇到过的真实情况,在看到数据的时候多问几个为什么,为什么这么高?为什么变化这么大?为什么出奇的平稳?
这些都是正常的吗?带着这些问题,我开始去看doubleclick的数据,发现以下问题
细查原因:
1、某个来源Impression Frequency比例极高(最高见过53,也就是平均每个用户看了这个位置的广告53次,丧心病狂啊)
2、某个来源来自chrome或者Firefox浏览器的曝光占比达50%(根据常识判断,如果你的网站不是特殊的小众网站的话,至少6-7成用户为IE6+IE8使用者)
3、某个定向投放广告的地域分布与实际完全不符(比如我只定向投济南、西安,但是报告显示IP大多来自于广东上海)
*这里要补充一下,针对Doubleclick的情况,目前其使用的IP库与国内大部分媒体会不一致,但是也不会非常离谱,一二线城市比例不会相差较大,同时各大媒体的定向广告投放还是比较准确,所以这些原因基本排除。
4、这种情况先查一下这个位置是不是按CPM售卖的,是不是按小时售卖的这种特殊情况,不要错杀一个好人。如果不是的话,就不需要手下留情了,只能说明他们刷流量机器24小时没关机了。
这个时候有一些需要一些常识来替我们判断,还有一些就需要经验慢慢积累。
得出结论:
1、上面第一问题,Frequency过高可以再看一下Frequency分布,看一次的有多少,两次的有多少,30+的有多少(Doubleclick提供此类报告查询),如果看超过30+的超过80%,那么有可能是这家媒体投放广告的方式过于粗暴,为达目标疯狂推送;如果30+的只有3%,那么这显然是机器刷出来的了,而且刷得比较低端。
2、这种情况比较明显,对系统及浏览器的判定是不会有什么争议的,这部分流量肯定是有问题的,作弊嫌疑大。
3、如果这家媒体没有说是他们操作失误的话,那么基本上可以确定那就是刷失误了。
4、只刷总量是不行的,还是得设定一下分布。
网站部分:
网站流量鉴别是我更喜欢的部分,因为相比广告他的数据优势比较明显。可以根据自己的想法来部署监测,(相当于在一个属于自己的店里选择位置放监视器来抓贼一样),同时收集到的数据也不会那么单一,可以看到一个不一样世界。
主要的三个原则,我看到网上一篇文章总结的特别好:对比,细分,**溯源 **
大道至简,这三个词将一大堆复杂的分析体系归纳的淋漓尽致。
同样,首先我们抛出几个最常见的问题:
发现问题:
1、点击这么高,为什么转化到网站的访问这么少?
2、网站Bounce rate 特别高,为什么?
3、网站Bounce rate低,为什么转化这么低,大家都干什么去了?
4、注册这么多,为什么打电话过去这么多无效账号?
这里虽然在讲虚假流量,但是它几乎渗入到网站的各个环节中,所以不管在什么地方有何异常,都是有必要来查一下的。
查找原因:
1、利用上面的3个原则,访问少,是所有的广告转化过来都低还是某一家或几家来源转化率较低?如果是前者,那么可能是网站本身加载过慢的同时影响网站分析工具代码的加载(一般这种可能性较小);如果是后者,那么有可能是这些广告位置不好,容易引起误点,或者大部分点击其实都是无效的,这时候要回到广告端查一下原因了。
2、Bounce rate是一个有争议性的指标,得具体问题具体分析。比如你的网站就只有一页,做一些内容展示的,那么别人也就不会有什么深入浏览了,最多看完了就走,但是对于这种情况,可以添加额外代码来看到底是来了没兴趣走掉还是看完了再走(有点跑题,想到了就写下来了),比如说我认为这些内容要看15S才能算是知道这个页面到底讲的什么,那么我在打开页面做一个15S延迟,在那个时间点再出发一条代码/non-bounce/,那么看到的东西就会更加丰富一点了。回到原来的问题,高,是所有来源都高还是部分来源高?如果是所有来源都高,那糟糕了,你的网站做的太烂,大家都不想看;如果是部分来源高,那么先看一下这几家来源有什么共性,如果这几家都是门户,而另外低的几家是垂直,那么可以接受一定范围内的差距,但是如果大家同样都是垂直,你的bounce rate 90%,其他几家都是60%,这就说不过去了吧?
3、Bounce rate低,但是大家都没去干我想让大家干的事情,这个问题就大一点了。是Landing page设计太差,不能正确引导用户?还是活动本身没有吸引力?还是虚假流量采用特定的模式降低bounce rate但是没有产生转化?那么看一下访问者访问路径,看一下是否正常合理。比如最近看到一个活动网站,注册特别少但是bounce rate比较低,首先这个活动注册门槛比较高,可能得身家几百万的才注册得起,抛开这个先不说,各个来源之间还是可以比较一下的。既然注册少,那么大家真的看了我的活动其他内容页面吗?不看不知道一看吓一跳:40%的用户来到首页以后都在刷新!刷完以后还有50%继续刷新,依次递减,加上网站本身的Bounce rate 50%,剩下真正有用的用户就只有10%左右,多么让人伤心的数字。最后再看一下是所有人都来刷新还是某一家在干这种勾当,果不其然,某一家投放量大(占总流量60%的媒体)90%以上用户都在这么干。当然,还有一些比较奇葩的低端手段,比如说设计来到网站以后固定点击某个酱油按钮(就是那种可有可无且毫不起眼的按钮),一抓一个正着。
4、注册多但有效注册少,这个可以从两方面来看,一个是网站监测端,在注册成功时布下代码,分来源看每个位置的注册PV与UPV比值。有时很明显,一个位置注册为500,但是UPV为20,相当于20个人活生生填了500个名单进去,手累不累呢?如果这个时候看不到明显迹象可以看一下注册后台(如果你有权限的话,因为有些懂的人会知道注册一次删掉cookie,这里不细说),把所有名单拿出来看一下,这个阶段也能看到好多有意思的事情,比如说一个广告位置带来的注册,其注册邮箱相当有规律,格式为4938503xyz@qq.com这种7位数字后加3个字母的QQ邮箱,一字排开相当整齐,我怎么也不会相信这是巧合;亦或者是这个来源虽然姓名邮箱手机填的都不一样,但是某2个选项却选得出奇地一直,比如说都是湖南省长沙市,看了一下,这个位置还不是定向广告啊,我看是填的时候偷懒了,这几个选项没改……
总结
数据在很多时候可以给我们看到许多问题并指导我们去做相应的优化,但是数据本身的真实性更是重中之重,错误的数据分析出来可能就是错误的结果,并导致后面一系列问题的产生。在这个过程中其实还是很有乐趣的,希望你在朝最后分析目的的过程中能乐在其中!
