大数据的价值密度 - Parallel Labs

文 / 陈冠诚

注：原文刊载于《程序员》2014年第5期，略有删改。

在大数据和云计算如火如荼的今天，怎样将数据的商业价值变现成为各位老板和技术男们最关心的问题。马云经常讲，我不懂技术，所以我才要发力做云计算，做大数据。相信马总一定因为看到了云计算和大数据的潜在商业价值才做出上述决定的。在各位大佬争相跑马圈地的年代，各大公司都开始占领数据源头，从构建自己线上应用的生态圈入手，将用户的数据牢牢掌握在自己手中，以期望将来能从这些数据中挖掘出“潜在”的商业价值，例如在2014年风生水起的互联网金融行业就是其中典型。请注意，笔者这里专门对大数据的商业价值加上了“潜在”这两字。为什么需要这么关注这个字？其实这跟你的投资回报率非常有关系。

例如，大家都知道如果你能把新浪微博上的数据都扒拉下来，必然对很多生意都非常有帮助，例如各大电商网站，各大招聘网站等等。但是，你必须考虑清楚构建一个能存储和分析新浪微博数据的大数据平台的成本有多高，而你基于这些数据构建的解决方案能给你创造多大的商业价值。举例来说，电商网站可以通过微博数据进行社交推荐，也可以根据用户正在谈论的关键热词进行针对性的商品需求趋势预测并作针对性的营销。这些用法都很好，都能看到商业价值，可是，最关键的问题在于，如果你知道花五百万搭建整个大数据团队和平台，一年后只能为你的生意带来四百万的增长，你还愿意干这件事情吗？

这里面牵涉到一个很关键的因素：大数据的价值密度问题。要知道，存储和计算PB级的数据是需要非常高的成本的，大数据虽然看起来很美，但是价值密度却远远低于传统关系型数据库中已经有的那些数据。有一句话笔者很认同：“如果用石油行业来类比大数据分析，那么在互联网金融领域甚至整个互联网行业中，最重要的并不是如何炼油（分析数据），而是如何获得优质原油（优质元数据）”。以股市为例，真正有价值的数据都只会在很小范围内（例如庄家之间）传播，极少可能会流落到互联网上来，所以你如果想去只靠分析微博上网民对股票涨跌的评论来做行情预测的话，真的是要小心了。

阿里之所以牛气，就因为他掌握了全国上亿网民实名制的历史交易记录，这会成为将来阿里金融帝国最重要的资产。而像“挖财”这样的理财软件，则选择了围魏救赵的策略，用“免费”的噱头积累大量用户的理财数据，以便他日能转换成商业价值。而像雪球，知乎这样的高质量UGC社区，最大的资本也就是在于这些高价值密度的内容所拥有的巨大可能性。当年友盟被高价收购的时候，他们最大的资产也就是来自于他们所掌握的移动互联网领域的高价值数据。笔者愚见，当大家为各种层出不穷的大数据新技术而热血沸腾的同时，一定不要忘记了兄弟们用大数据的初衷，只是为了挖掘更大的商业价值而已。

回到刚刚提到的阿里巴巴金融数据，微博上的大数据怎么被更高效利用的问题，阿里和微博正在做的就是所谓Big-Data-As-a-Service的服务，所以你不需要自建一个专门用来存放淘宝和新浪微博海量数据的平台，产生不必要的成本浪费，而只需要根据自己的需求，直接通过阿里和微博提供的大数据服务的付费和免费接口，去对那些真正能对你产生价值的淘宝、微博数据进行分析，按需付费，实现双赢，甚至多赢。也许到那一天，我们才能真正在大数据的成本和收益之间取得一个很好的平衡，以创造更多的社会价值。

简而言之，玩大数据的时候，请一定要考虑清楚你所面对的数据的价值密度有多高，归根结底，商业的本质只是希望通过大数据挖掘更多的商业价值，仅此而已。

推荐订阅源

Parallel Labs