第二十章 Hadoop100问
Q:大数据只代表那些量很大的数据吗?
A: 虽然从名字上看是这样,但是实际上我们用“大数据”来形容因为某种原因无法适应传统数据库软件工具的数据,而这些软件工具在过去的数十年间一直被用于分析和商业智能。举个例子,大数据也许无法完全适应关系型数据库(例如图像的像素数据),或者需要经过特别的处理才能和其他数据共同使用(例如从机器设备获得的时间序列数据)。
Q: 我们在油气行业不是一直都在用大数据吗?
A: 是的!地震探测和历史学家储存的传感器数据就是两个很好的例子。早期,由于这些数据量很大而难以处理,在典型的数据库工具中表现并不出色,所以我们就将它限制在了预定义的工作流和应用单元当中。结果是我们不知不觉地限制了自己寻求关键业务问题的准确答案的能力。现在的大数据运动都是为了实现以全新的方式去应用这些棘手的、对运营提出了挑战的数据,从而获取更多问题的答案。
Q: 当前的大数据运动究竟在做什么呢?
A: 都是为了实现所有数据的自由支配——不管它是图像、视频、音频、自然语言文本、机器可读文本、传感器数据还是平常的数据库中的老式关系型数据,不管数据量是兆字节还是兆兆字节,不管信息来源是实时的快照还是不断流入的数据流。
Q: 但是要怎么实现呢?关键是这些数据很难管理啊
A: 相比“传统的”数据而言,我们可以采取各种不同的IT解决方案来管理并查询这些数据。我们可以从Yahoo、Google、eBay等互联网企业身上学到很多,他们都是新型工具和技术的领导者。他们每天用到的数据和油气行业一直以来卖力管理的数据非常相似。
他们每天都要检查兆兆字节的网络服务器日志,加深对客户交互的理解;还对社交媒体内容应用了自然语言处理和情感倾向分析;物联网的发展带入了更多FitBit 和苹果智能手表这样的“可穿戴设备”,所以传感器数据也是他们的重点关注之一。
Q: 我们为什么要做大数据?
A: 为什么不呢?我们都知道,油气行业的风险非常高,因为一次油气开采的花费可以高达70亿美元,所以必须根据数据进行商业决策,不能凭直觉拍脑袋。
在交通运输行业中,传感器数据(一种大数据的来源)可以检测引擎行为,并且可以结合引擎性能和引擎或车辆的主数据,例如修理历史、服务和利用历史等数据(在大数据出现之前他们拥有的所有数据来源),方便运营商准确预测引擎故障的时间。对于火车、航空、快递公司而言,这意味着他们可以组织故障车辆进行预防性维护,而不是坐以待毙,让车辆在路上发生故障,使旅客、运货发生滞留。