咨询、分析、数据服务,请发邮件至:xmhzbj@163.com或加小新微信(ID:newmtzs)。查询榜单登陆www.gsdata.cnPC端访问效果更佳


数学是个很神奇的东西,一些看似不经意的小数字,却有着庞大的力量。


新媒体指数目前每日对超过30万的账号进行一次数据统计。有网友咨询可否实时统计,在向其解释了相关的数据抓取量之后,其一阵惊讶。


她提出,可否对某个账号进行实时统计,间隔不用长,一小时一次就够了。这看上去是一件很容易的事情,但实际情况如何呢?我们来算一下。


条件:对一个账号进行数据统计,一小时一次,统计周期一个月。每天都对周期内的文章进行抓取。


计算:假设该账号每天发布5篇文章。且每日发文时间为固定。

第一天:每小时抓取次数为5,首天抓取数据次数为5×24=120

第二天:抓取的次数为5×24×2+5×24=360

第三天:5×24×3+5×24×2+5×24=720

第四天:5×24×4+5×24×3+5×24×2+5×24=1200

……

n天:5×24×n+5×24×(n-1+5×24×(n-2+ …… 5×24


大家都已经看出来了吧,这其实是一个等差数列(迷茫中的可以翻高一数学课本复习一下)。其求和计算公式为:




其中 a1为首项,在该计算中为5×24,即120

d 为公差,在该计算中为120

所以…… 所以第31天需要抓取的次数为S30=120×31+31×30÷2×120=59520


一个月总的抓取次数为 120×(1+1+2+1+2+3+ …… +(1+2+3+4+……+31


这其实是一个二阶等差数列。可以看到除了公差项120之外,其余的为天数累加,其之间存在的规律为an-a(n-1)=n。an=(n^2+n)/2。最后的求和公式为Sn=n(n+1)(2n+1)/6


所以……所以……所以一个月的总抓取次数是 120×31×(31+1)×(31×2+1)÷6=120×31×32×63÷6=1249920


Oh my god!




新媒体指数目前每日统计的账号数量超过30万个!


当然问的更多的是,为什么我在后台看到的数据跟你们抓取的差别那么大,你们的数据是错误的么?


这个……这个同样算一下吧。


目前已经有超过300多家机构和账号使用我们的数据发布榜单。绝大多数采取的是每周发布一次周榜,部分账号会发布日榜。所以我们即以周榜中某个账号的数据来举例。


模型:某单位账号每天发布5篇文章,每周发布7天。


测算;新媒体指数微信周榜设定的统计周期为上周日到本周六为一周。数据在周日下午开始抓取,一般抓取时间为15时至19时,后台数据会在20时左右更新。


取中值,假设某账号数据在17时被抓取到,在后台数据于20点更新展示出来时,时间差为3小时。


由于数据更新时间为晚间,且为周末。因而绝大多数发榜机构会选择在第二天即周一进行发榜。在内容发布时间方面,很多运营着都相信有一种“晚高峰理论”,即在下午下班前后发布的文章最易引发人们的阅读。于是不少账号都将每日一次的宝贵发布机会选择在16时到19时之间。


所以假设我们的发榜机构也遵循这样的规律,其榜单在周一下午17时发出。此时,距离账号数据被抓取到已经过去了24小时。


由于时已近晚,某单位于第二天上班后(9点)看到该榜单,并立即验证自己的账号数据,数据验证于10点完成。此刻举例机构发榜过去17小时,举例新媒体指数数据抓取时间过去41小时。


如果每篇文章的阅读数每小时增加10次(这应该不高吧)。


41小时过去了,数据会产生多大的变化呢?


数据的变化量S=5×7×41×10=14350


当然这是为了便于计算的数学模型,实际情况更复杂。


好可怕的数据效应啊!