第八周 10-20 大数据继续学习 运用在 模具展览中
今天 10-20 ,还是 1小时 车程, 最终停车过来, 已经 9点 了 。
上午 zookeepper , 下午 spark ,
10:30 开始, 之前一直在讨论
HDFS 高可用 是使用 ZOOKEEPER
这个还是对应的 KAFKA里面也能用 Zookeeper
下面的是卢老师讲的
-------- 下午开始 ,复习 zookeeper 的内容, 仅仅是一种服务包, 并不是语言, spark 也是一个运用包。
主要是为了, 等待出问题的时候, 才进行重新选领导,以及重新广播的应急办法就是 zookeeper 。
大数据组件原理总结-Hadoop、Hbase、Kafka、Zookeeper、Spark
Hadoop原理
分为HDFS与Yarn两个部分。HDFS有Namenode和Datanode两个部分。
HBase原理
Hbase是列存储数据库。其存储的组织结构就是将相同的列族存储在一起,因此得名的。
Zookeeper原理
Zookeeper是一个资源管理库,对节点进行协调、通信、失败处理、节点损坏的处理等,是一个无中心设计,主节点通过选举产生。
Kafka原理
Kafka是分布式发布-订阅消息系统。
Spark原理
spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。
应用场景:集群管理
Hbase Master选举则是zookeeper经典的使用场景;
Storm集群管理
Zookeeper通过维护一个分布式目录数据结构,实现分布式协调服务
利用Zookeeper有序目录的创建和删除,实现分布式共享锁。
------------下午 4:20 开始学习 Spark 2009年诞生于apache 一站式的批处理,实时流处理
Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。
使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。
Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。
与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
Spark 4大特性