从大数据到智能数据,从5V(规模大、速度快、类型多、密度低和真实性)到5P(数据规模、数据粒度、数据模型、数据产品和数据红利),数据比你更了解你自己。智能数据迭代思维,如何开启智慧商业新时代?在1月28日清博盛典上,清博研究院副院长向安玲为你讲述数据之美与智能之势。
受邀分享嘉宾: 清博研究院副院长向安玲
1 以下是向安玲演讲实录 大家下午好,很开心今天在这里跟大家进行交流。今天我主要从通用研究的层面来谈一下自己对智能数据的一些看法。 在大数据时代,我们经常强调一个概念叫5V,也就是规模大、速度快、类型多、密度低和真实性,那么智能数据则更强调的是5P,我把它总结为数据规模、数据粒度、数据模型、数据产品和数据红利。这五块内容环环相扣、层层递进、缺一不可,是每一家大数据公司底层运作逻辑。 首先是数据规模要足够大,也就是我们需要去覆盖尽可能多的平台、尽可能多的终端、尽可能多的用户。先把数据池给搭建起来,然后不断地去扩充它,形成规模化效益。这也是智能数据的底层基础。 其次,数据粒度要足够细,光把用户圈起来是不够的,你需要知道他是谁,在哪里,做什么,简单理解就是需要给他打标签,用标签把人跟人区分开。现在国外一个脸书的帐号就可以被打上一百多万个标签,而且不仅仅说是你的年龄、性别、职业、地域基本信息,甚至包括你家里有没有养宠物,可能交过几个女友,你最喜欢什么品牌,最喜欢去哪些超市,这样子生活化、场景化的标签。 所以,以后我们每个人出去头顶上可能都会顶着一堆标签,这些标签会形成个人的能量柱。比如,你头上顶着“高富帅”和“霸道总裁”的标签,你的能量柱会更高,商家更容易扫描到你。这个能量柱怎么算出来的呢?靠的就是数据模型。如果说数据标签是为了告诉我们这个人是谁,在哪里,做什么,那么数据模型就是告诉我们,他喜欢什么,他可能会去做什么,然后能够达到什么样的一个效果。现在常见的数据模型包括评估模型、推荐模型和预测模型。 如果我们把刚刚所说的这一系列的数据模型,放到一个具体的应用场景当中去做具象化开发,就会形成一系列的数据产品。 举个例子,如果把推荐模型放到信息流当中就成了内容推荐,也就是头条模式。本来只是一个新闻资讯类的APP,加入了数据模型就成了大数据产品,相应的你把这个模型放到电商平台就成了产品推荐、消费导向,如果放到我们的舆情系统当中,就成为了危机预警和推荐。 无论是数据规模、数据粒度还是模型和产品,它的基本的出发点或者说最后的落地点都是数据红利。这里所说的数据红利是从用户视角出发的,是数据能给用户所带来的价值,并非是它能给数据厂商带来的利润。 我们可以把数据红利划分为两个层次。一个是优化决策和提升效率的,比如数据预测和评估,都是为帮助用户发现痛点,对症下药。这个是帮用户省时间。另外一个相反,是为了是满足偏好、创造需求。比如我们做数据推荐,不断地给你想要的、想看的、想买的,从本质上看就是在黏住用户、帮助他打发时间。所以数据红利的本质,其实就是在跟用户的时间较劲,不管是帮助用户“省时间”还是“费时间”,最核心的还是要抓住用户痛点,真正能解决他的问题。 对于任何一家大数据公司而言,如果说缺少了这五个环节的任何一块,它的数据可能就是无效的。 在数据规模方面,我们认为必须实现线上和线下的全面触达,目前在线上数据这一块,清博已经覆盖了两微一端一站,包括平媒电子版、短视频直播等二十多个平台,接近一百万个站点,每天更新的资讯数据量是五千万条,数据保有量达到了十亿。短视频和直播也是我们今年布局的一个重点。 线上数据的采集和分析,其实已经进入到了一个红海市场,各厂商之间的争夺非常的惨烈,所以说近两年来也有越来越多的大数据公司,开始把视角转向线下。线下数据的整个采集逻辑跟线上是相通的,我们可以把线下的一个个门店、超市、景点,理解成为一个个APP,我们要想获取这些APP里的用户数据,就需要在里面去埋SDK,只不过这些SDK不再是程序代码和软件包,而是免费Wifi、红外探测仪,甚至是抓娃娃机和充电宝、二维码等等,我们通过这些入口去整合线下到店客户的开放数据信息,然后基于这些信息,可以精准地去服务于门店。 当然,线下数据采集所涉及到的规模成本包括风险性都比线上数据更高,但其所能够带来的转化率、包括服务的精准度都更强。所以我们可以预计,近两年内会有越来越多的大数据公司,开始在线下数据这一块跑马圈地。 再说数据粒度,目前我们针对资讯内容实现了机器的自动化打标,包括对资讯内容的基本属性和关联主体的属性,整个的标签体系大概是涵盖了八百多个因子,这当中大部分都可以通过机器自动的聚类识别进行标注,有些目前还需要人工辅佐进行判断。 在用户标签这一块,我们每天可以采集到十二亿次的场景行为数据,也就是说我们每天会在不同的时段去扫描我们的终端用户,整合用户网络使用行为、地理位置、设备属性和一些基本的帐号属性。基于这些扫描到的基础数据,我们可以对这些用户进行全方位的数据画像,包括对用户五维性格特征、意识风险都可以进行数据测算。 当然,现在还很难做到对每一个ID都做到这样全息、立体、深度的数据画像,主要还是集中在对头部帐号,或者是事件传播过程当中关键发声主体进行分析。也就是我们目前在做的,其实叫IP大数据,但是在未来会逐渐的向ID大数据拓展。 在数据模型和数据产品这一块我们目前也在不断地延伸触角。未来,我们将在保证真实性、客观性、透明性、开放性的基础上,通过跨界合作,去聚合更多的里层数据,我们希望向更多的研究机构、企业、包括政府部门去进行数据共享,通过数据资源交换去助推数据融合,在数据红利层面实现多赢。
— [ THE END ] —