当前位置:首页 » 其他

读<<大数据时代>>的一些感想

2014-05-04 21:39 本站整理 浏览(6)

第一次听说<<大数据时代>>这本书,是在网上看到的央视搞的一个2013中国好书评选活动推荐的25本“中国好书”的榜单中看到的。然后迅速上豆瓣上查看了一下对该书的评价,一看非常高,再加上央视的推荐是从2013在中国出版的40册图书中选出25本,可以说是精华了。果断定了一本,花了三天时间读完了。

大数据这个名词或者说概念从被提出开始,经过短短几年的发展,已经传的沸沸扬扬了,经常见诸媒体上。好像哪家媒体的科技板块每天不弄一些这样的新闻条,它就显得不够档次一样。这是一个我们耳熟能详的概念,听得多了,有时候都显得有点麻木了。我经常上网看一些分析师的文章,各种分析,我总结了一下大致上都是在微观层面上说事,而且都是细枝末节的事,直到出现了<<大数据时代>>这本书。<<大数据时代>>不像一般的分析文章的碎碎念,而是从宏观层面上来分析大数据对我们社会的各个方面的影响,是一本值得阅读的好书。(有点打广告的嫌疑好~~哈哈)

从哲学家的角度来看这个世界是物质的世界,从计算机科学家的角度来看这个世界,这个世界是bit的世界,而且发展到现在这个时候,这个世界已经是流动的bit世界了。因此从根本上来说这个世界的本质是数据。物质世界的这种特性,不是一开始就被人们所认识的。工业革命把这个社会分成了两个阶段,第一个阶段可以叫做静止的世界(指工业革命前的世界),第二个阶段叫做动态的世界(指工业革命后的世界)。工业革命前,人类的社会积累的数据是有限的,到了动态的社会,随着电气化信息化的到来,社会越来越动态,而这种动态加剧了人类生产数据,更重要的是有了相关的技术来记录这些数据。由此出现了一个大数据的时代。

就像这本书的一篇序言里讲的一样,大数据的发展核心动力来源于人类测量 记录 分析世界的渴望。从古至今,人类永远对未知充满恐惧,迫切想知道下一刻会发生什么。而大数据恰恰可以满足人们这方面的需求,把未来的不确定性通过预测变成“确定性”,然后呈现给人看,至于这个确定性有多大的真实性,我相信技术能解决这个问题,这也就是大数据的价值和未来在社会中的作用,满足人们对未知渴望了解的心理。

文中的一个令人印象深刻的观点是大数据时代,相关关系将取代因果关系,或者说相关关系更重要,而因果关系已经不那么重要了。对于此观点四川电子科技大学教授周涛(中国最年轻的的大学教授,大牛呀~~,有关他的传奇经历大家可以网上扒一下)认为从大处讲,放弃对因果性的追求,就是放弃了人类凌驾于计算机智商的智力优势,是人类自身的放纵和堕落。如果未来某一天机器和计算完全接管了这个世界,那么这种放弃就是末日之始。因果关系是这个世界存在的一种基础关系,可以说因为因果关系的存在,人类才能了解这个世界。如果有一天所有的人都不在去探寻这个世界中未发现的因果关系了,完全按照相关关系来分析这个世界,理论上来说不是不可以,而且我相信当数据积累足够多的时候,相关关系是可以取代因果关系的。我所担心的是人类过分依赖于相关关系来分析这个世界,放弃以前自己积累的优势,很有可能造成被机器取代的下场。但是,我们这个世界发展到现在,越来越复杂,需要考虑的因素很多,很多的事情我们必须依赖于机器,我们能做的只是在一些核心的层面上减少对机器的依赖,切勿抛弃对世界因果关系的探索。

关于大数据的一个当下最火的也是被提及最多的一个观点是:未来我们可以真正实现计划经济想做的事。咋一看这个观点有点懵,说的是什么呀,我们不是处在一个市场经济的时代吗,市场经济不是优于计划经济吗,回到计划经济不是历史的倒退吗?我相信很多的读者看到这个观点,脑中闪现的可能是这样的一些疑问。不急,听我慢慢给你讲来。这种观点的设想是这样的:利用电子商务平台积累的无限的用户消费行为的习惯的数据,加上大数据的分析技术,利用C2B,真正实现个性化的消费,完全按照用户的需求来进行社会生产。铛铛档~~,是不是有点计划经济的味道了。说实在的当我第一次看到这个观点的时候,也是感到无比的震撼,太帅气了。我想说的是:这种时代的到来不是没有可能,而且又是未来我看好的社会发展方向,前提是配套的设施得到位,像物流呀,大数据分析技术啦等等。

<<大数据时代>>这本书中把大数据这个链条分成三个部分,也就是说在未来的商业社会中,有三种的大数据公司:基于技术的公司、基于数据的公司、基于思维的公司。这三个公司会在未来的大数据商业时代共存,而且有可能能是相互依存的。因为毕竟像google amazon这种有数据、有技术、有大数据思维的公司不是很多,更多的企业不能完全拥有这三样东西,因此需要的大家的合作。

这本书中着重讲了大数据时代的思维变革的重要性。我记得作者举得一个例子是这样的:在 2000年的时候,微软研究中心的米歇尔 ·班科(Michele Banko )和埃里克·布里尔( Eric Bill)一直在寻求改进 Word程序中语法检查的方法。但是他们不能确定是努力改进现有的算法、研发新的方法,还是添加更加细腻精致 的特点更有效。所以,在实施这些措施之前,他们决定往现有的算法中添加更多的数据,看看 会有什么不同的变化。很多对计算机学习算法的研究都建立在百万字左右的语料库基础上。最 后,他们决定往 4种常见的算法中逐渐添加数据,先是一千万字,再到一亿字,最后到十亿。

当数据只有 500万的时候,有一种简单的算法表现得很差,但当数据达 10亿的时候,它变成 了表现最好的,准确率从原来的 75%提高到了95% 以上。与之相反地,在少量数据情况下运行得 最好的算法,当加入更多的数据时,也会像其他的算法一样有所提高,但是却变成了在大量数 据条件下运行得最不好的。它的准确率会从 86%提高到94% 。 后来,班科和布里尔在他们发表的研究论文中写到, “如此一来,我们得重新衡量一下更多的人力物力是应该消耗在算法发展上还是在语料库发展上。 ” 有一句叫做:你的思维有多远,你的未来就有多远。大数据时代是时候改变我们以前的思维方式了。

关于大数据,当下很多的说法,每个企业都在谈论大数据,但是每个企业又不知道怎么开始干大数据。我不知道什么原因,我的感觉是思维的问题。貌似我们现在强调的大数据大数据强调的是数据量的大,而忽略大数据最本质的是数据。大数据是一个宏观上的概念或者说全局性的概念,它指的是整个社会的数据量在增大,越来越大,我们这个社会越来越变成一个数据的社会,当然不排除单一数据的量很大的情况出现,但是没有很大很大数据就干不成事了吗?来让我们看一个例子:prada收集在它的店里顾客试衣的一些信息,看有哪些是人们进了试衣间,然后买了这件衣服的,看又有哪些是进了试衣间没买走衣服的,然后迅速对没被买走的衣服进行一些样式、颜色等方面的修改,再推向市场。记住,大数据的本质在于数据,大只是它在整个宏观社会整体上的一个表现。

<<大数据时代>>这本书中内容很多,而且很有深度,讲到了大数据时代的思维变革、大数据时代的商业变革、大数据时代的社会管理变革,信息量很多,而且文中列举了无数经典而又有说服力的例子,非常的漂亮,是一本难得一见的好书。