大数据是什么意思

刚开始学接触编程的时候接触到c,然后是c,然后是java 。我第一次接触java的时候,就爱上了它,因为它简单易懂 。之后接触了javaweb,开始学习一些后端开发技术 。那时候大数据也热,而且因为我是数学出身,大数据对我来说是个不错的选择 。
慢慢的,我开始涉足大数据,从javase开始,然后学习linux系统,其中linux包含了centos和ubuntu,两者个人都比较好用 。然后学习hadoop,它包括两个块:hdfs(分布式文件系统)和mapreduce(并行计算框架) 。虽然现在用的比较少,但是学习它对你以后学习更好的并行计算框架会有很多好处 。然后就可以学习数据仓库hive了 。hive的底层实现是mapreduce 。它使用的sql语言叫做hql 。如果你之前学过mysql数据库的话,很容易上手 。但是想要更好的了解hive,就需要学习mapreduce 。hive用于olap,不支持交易 。然后学习面向列族的hbase分布式数据库,支持事务操作,但是在实践中感觉不是很好 。它是一个基于hadoop的数据库,适合随机访问和实时读写 。但是,在拥有了大量的数据之后,如何更好的将不同来源的数据导入到想要使用的数据库中,可以使用sqoop 。个人觉得简单方便 。
接下来,您可以学习flume,这是一个分布式日志收集框架,可以处理多种类型的文件 。然后学习卡夫卡,这是一个消息发布和订阅的实时处理系统 。具有高通量的能力 。然后你可以学习strom,一个实时流媒体计算框架 。它可以高速抓取数据,并对各种数据进行并行计算 。然后可以学习spark,spark由sparksql、sparkstreaming、mllib、graph等组成 。它可以解决三个核心问题,如批处理、流处理和ad-hocquery 。spark确实比mapreduce快很多,毕竟是基于内存计算的框架 。
接下来可以学习数据分析、数据挖掘、机器学习等相关知识 。
现在我要开始读什么是大数据了 。
大数据顾名思义就是海量数据,到什么程度?不是几兆,不是几千兆,而是几百千兆,几tb,几千兆,传统数据库承受不了的 。现在一般用hadoop技术,hive技术,spark技术等等进行处理 。
那么大数据有什么特点呢?有四点
1.数据量非常大,比如文字,来源各种各样,比如电子书,实体书,杂志,报纸等 。他们的数据很大 。
2.数据的类型有很多种,有些是结构化数据,比如传统数据库中的数据,比如oracle、mysql等,一般都是结构化的,也有非结构化的,比如html、word、execl等格式 。
3.它们的价值密度低 。这么说吧 。比如你看一段数据,看起来它的价值并不大,但是分析完所有的数据之后呢?总会有重要的东西被挖掘出来 。
大数据的特征
4.处理这些数据的速度应该很快 。比如像hadoop技术这样的mapreduce计算框架,比传统的数据库处理速度快,吞吐量特别大 。例如,spark的内存比hadoop快100倍,磁盘快10倍 。
大数据处理和传统数据处理有什么区别?
就是用所有的数据去分析,去得出结论,去思考,去了解它的好处 。
大数据的应用?
你可以做一个推荐系统,像电商,影视app,你平时关注什么产品,或者浏览什么类型的产品,或者看什么类型的电影,或者谁是影视主力 。经过大数据分析处理,这些应用会推荐类似的产品或电影 。
销售方面,我想大家都听过一个例子,就是纸尿裤和啤酒的捆绑销售
反欺诈在银行中的应用 。经过大量的数据分析,我们可以得到欺诈的行为特征,并根据这些特征,以更大的概率来判断是否是欺诈
在人工智能方面,像谷歌的alphadog,无人驾驶汽车驾驶等 。所有这些都使用大数据 。
….
问小米适配器刚拿到的,拆开来味道很大数据线正常吗那是电子线路板和一些胶水的味道 。如果产品功能还行,过几天就没了 。