返回列表 发帖

[转贴] 大数据时代

数据价值

一分钟内,微博推特上新发的数据量超过10万;社交网络“脸谱”的浏览量超过600万……
这些庞大数字,意味着什么?
它意味着,一种全新的致富手段也许就摆在面前,它的价值堪比石油和黄金。
事实上,当你仍然在把微博等社交平台当作抒情或者发议论的工具时,华尔街的敛财高手们却正在挖掘这些互联网的“数据财富”,先人一步用其预判市场走势,而且取得了不俗的收益。
让我们一起来看看——他们是怎么做的。
这些数据都能干啥。具体有六大价值:
●1、华尔街根据民众情绪抛售股票;
●2、对冲基金依据购物网站的顾客评论,分析企业产品销售状况;
●3、银行根据求职网站的岗位数量,推断就业率;
●4、投资机构搜集并分析上市企业声明,从中寻找破产的蛛丝马迹;
●5、美国疾病控制和预防中心依据网民搜索,分析全球范围内流感等病疫的传播状况;
●6、美国总统奥巴马的竞选团队依据选民的微博,实时分析选民对总统竞选人的喜好。
1

评分人数

    • aimei: 金钱 + 50 鲜花 + 20
这个版块很好。第一次知道fuel也是这个版块的?看了图形确实有意思。
好好学习!
欢迎来股版。。。这里的版主很Nice。。。
把你博客里的部分文贴这里会很受欢迎。。。

回复 21# wx8zjs
回复 1# mooncake
回复 1# mooncake


    n年前我就梦想有一天,可以有真正的大数据处理公司,把有用的信息过滤出来。我也相信这将是21世纪头50年最热最有前途的领域。其实大数据处理包含很多,涉及数据处理,数据过滤,数学模型,最重要是运用历史数据进行数据模拟,以及各领域数据交互作用分析。这将不是某一个公司可以做到,而是大国倾全国之力才能做到,因为这牵涉太多知识面了,就数据处理能力一项而言,目前任何商业计算机都不具备完全的这项能力。
1

评分人数

鲜花鸡蛋赠送记录

多谢了!!
回复 16# qzhou3
多谢!!
回复 15# AIMEIFAN
回复 14# mooncake

BTW, I think T大大, NOBO 大大, and 长城大姐 are performing big data analysis with their models...
回复 14# mooncake

No I don't. My institution has organized one conference about big data but I couldn't differentiate it from the traditional data analysis. The only things I learned: cloud is the storage of data; cloud computing is that you run analysis without physically obtain the data; big data are data obtained from social media or various websites.

The example we tried was analyzing an IP address's web searching history to find out the possible health conditions of the person...
大数据是指从各种不同resource(比如微波,twitter)来的数据分析。云集算是office 365, dropbox等。商业智能是自动报表。

回复 14# mooncake
1

评分人数

嗯,多谢!

我在看大数据、云计算和商业智能这三者的关系,还没整明白

你知道吗?
回复 11# qzhou3
回复 12# mooncake


Thanks for these definitions!
(ZT)
关于大数据和云计算的关系人们通常会有误解。而且也会把它们混起来说,分别做一句话直白解释就是:云计算就是硬件资源的虚拟化;大数据就是海量数据的高效处理。
虽然上面的一句话解释不是非常的贴切,但是可以帮助你简单的理解二者的区别。另外,如果做一个更形象的解释,云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化之后再进行分配使用,在云计算领域目前的老大应该算是Amazon,可以说为云计算提供了商业化的标准,另外值得关注的还有VMware(其实从这一点可以帮助你理解云计算和虚拟化的关系),开源的云平台最有活力的就是Openstack了;
大数据相当于海量数据的“数据库”,而且通观大数据领域的发展也能看出,当前的大数据处理一直在向着近似于传统数据库体验的方向发展,Hadoop的产生使我们能够用普通机器建立稳定的处理TB级数据的集群,把传统而昂贵的并行计算等概念一下就拉到了我们的面前,但是其不适合数据分析人员使用(因为MapReduce开发复杂),所以PigLatin和Hive出现了(分别是Yahoo!和facebook发起的项目,说到这补充一下,在大数据领域Google、facebook、twitter等前沿的互联网公司作出了很积极和强大的贡献),为我们带来了类SQL的操作,到这里操作方式像SQL了,但是处理效率很慢,绝对和传统的数据库的处理效率有天壤之别,所以人们又在想怎样在大数据处理上不只是操作方式类SQL,而处理速度也能“类SQL”,Google为我们带来了Dremel/PowerDrill等技术,Cloudera(Hadoop商业化最强的公司,Hadoop之父cutting就在这里负责技术领导)的Impala也出现了。
整体来看,未来的趋势是,云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力,借用Google一篇技术论文中的话,“动一下鼠标就可以在秒级操作PB级别的数据”难道不让人兴奋吗?
Learn to become a hunter, not the hunted
回复 9# mooncake

Yes. I would add IBM and ORCL. Both DATA and SPLK are great.
返回列表