Kafka学习（概念+搭建）

初认识

特点：高水平扩展、高吞吐。消息中间件。不支持事务（AMQ可支持）。支持动态扩容（通过zookeeper实现）。
协议：AMQP协议
结构：producer－－broker－－cosumer
topic
partition：一个topic中的消息数据按照多个分区组织，分区时kafka消息队列组织的最小单位，一个分区可以看作是一个FIFO的队列

Broker1 Broker2 Broker3 partition-0 partition-1 partition-2 partition-1 partition-2 partition-0

这里写图片描述
如上，即3个partition，存了两份。并且，对每个分区进行备份（Replication）。把每个分区上面的数据放到不同的broker上，防止某个broker 宕机，造成分区数据不可用。
越多的partitions意味着可以容纳更多的consumer，有效提升并发消费的能力

一、搭建zookeeper集群

数量：一般为3+，且奇数，因为zk可实现接近半数服务器异常的情况下，依然提供服务，即3台里面可以允许1台宕机。
环境：JDK 1.7，zookeeper需要运行在JVM上面。版本3.4.6

1、安装JDK
解压，配置系统环境变量JAVA_HOME到jdk所在目录/bin。
java -version

2、安装zk
解压，创建两个目录zkdata、zkdatalog。
conf目录下有sample，cp zoo_sample.cfg zoo.cfg[一定的]。其中，dataDir是快照日志【我理解就是比如节点的信息】的存储路径，修改为之前创建的zkdata。新增一个配置想dataLogDir是zk的事务日志存放目录。［如果不另配置，将都放在dataDir中］。端口。集群配置：server.1[1是本台机器的标示]＝IP 2888［默认是2888，是master和slave之间通信的端口］ 3888［leader选举的端口］，再有server.2=IP 2888 3888,server.3=IP 2888 3888.
进入dataDir所在的目录，创建myid的文件，内容为1［即上文上提到的本机标示1］
clientport 是client来连接本机的端口，集群中的此端口不必保持一致
ticktime是zk中的时间单元

3、启动zk
bin目录下，./zkServer.sh start。分别在2台机器上面执行
查看集群状态
./zkServer.sh status
可以看到mode：foollower或者是leader。一般只有一个leader，用于响应client端的读写请求。slaver从leader同步数据。leader异常时，会通过投票，在slaver中选一个当leader

另，
log4j文件，日志输出格式的文件。zk不会自主清除日志文件，需定期清理。
zoo.cfg：tickTime，指的是initLimit和syncLimit的时间单位（ms）。initLimit是集群启动的时候，达成一致状态的时间。若到这个时间还没启动好，就回报失败。syncLimit是master给slave发心跳并回给master，这之间的往返最大时间。若超过此时间，master就认为此slave已经死机。

查看：
./zkCli.sh
ls / 一定要加/才可以
出来zk目录外，其他均为kfka创建的
get ＊

二、搭建kafka集群

数量一般大于等于2，已经搭建好的zk集群。

1、安装
解压，创建目录kafkaLogs，用于存放kafka的消息。
2、配置
config/
server.properties 最重要
zookeeprt.properties kafka自带的zk，kafka也可以使用自带的zk来启动，但不推荐这样的方式
在server.properties中：
broker.id=0第一台
port
host.name=IP，考虑到DNS解析是有失败率的，会泄漏文件句柄
num.network.thread= broker进行网络处理的线程数，一般不修改
num.io.thread broker进行IO处理的线程数，需大于log.dirs的个数，以保证一个线程处理一个目录
socket.send.buffer.bytes kafka发送消息的缓冲区大小
socket.receive.buffer.bytes 接收
socket.request.max.bytes 发送或接收消息的请求的最大数。不能超过java的堆栈大小

log.dirs= 队列中的消息，持久化的地方，即上面创建的kafkaLogs。可配制多个，以逗号分割，新topic会放到最少的那个里面
num,partition 一个topic默认的分区数

log.retention.hours kafka上面的消息的失效期
message.max.byte=5048576 kafka可接收的每条消息的最大大小
default.relication.factor=2 kafka集群保存消息的副本数，默认1
replication.fetch.max.bytes=5M 取消息的最大连接数
log.segment.bytes 由于文件被一直追加写，知道达到这个大小的时候，会新起一个文件。即持久化的文件的最大大小
log.retention.check.interval.ms 每个这么多时间，扫描下是否到失效时间

zookeeper.connect=本机IP:port,另一台IP:port,再另一台IP:port
zookeeper.conection kafka连接zk的超时时间。

3、启动
bin目录下 ./kafka-server-start.sh -deamon［后台启动］../config/server.properties［指定配置文件］
jps看进程在不在

日志：
server.log kafka的运行日志
state-change.log 切换日志。leader切换
controller.log crotroller的信息

其他配置文件：
1——consumer
zk.connet=一般会使用server中的，这里不用管
zk,connnection.timeout.ms
group.id 组织一个topic下面的多个partition。假设一个topic有两个group id，那么一个group id对应一个consumer组。不同的consumer组可以复制消息这个topic消息。即此一个topic消息可以被两个程序拿两遍

2——producer
broker.list 已在server中配置
producer.type 消息发送方式，默认为同步sync。可以在程序中改动，一般不改这里
compression.codec 压缩的手段
serializer.class=kafka.serializer.DefaultEncoder

offset

不同于AMQ，kafka在消息被消费之后，仍会根据broker的设置，保留一段时间。到了时间后，无论消息是否被消费，都会被删除。
每条消息在文件中的位置称为offset（偏移量），（上面的图）offset为一个long型数字，它唯一的标记一条消息【即，消息是靠偏移量来确认的】。kafka并没有提供其他额外的索引机制来存储offset，因为在kafka中几乎不允许对消息进行“随机读写”。

对于consumer而言，它负责保存偏移量。当consumer正常消费消息时,offset将会”线性”的向前驱动,【我理解类似游标】，即消息将依次顺序被消费.事实上consumer可以使用任意顺序消费消息,它只需要将offset重置为任意值..(offset将会保存在zookeeper中,参见下文)kafka集群几乎不需要维护任何consumer和producer状态信息,这些信息有zookeeper保存;因此producer和consumer的客户端实现非常轻量级,它们可以随意离开,而不会对集群造成额外的影响.

基于replicated方案,那么就意味着需要对多个备份进行调度;每个partition都有一个server为”leader”;leader负责所有的读写操作,如果leader失效,那么将会有其他follower来接管(成为新的leader);follower只是单调的和leader跟进,同步消息即可..由此可见作为leader的server承载了全部的请求压力,因此从集群的整体考虑,有多少个partitions就意味着有多少个”leader”,kafka会将”leader”均衡的分散在每个实例上,来确保整体的性能稳定.【我理解，在partition0里面，可能备份了2份，即两个server，其中一个为leader，另一个为follower。这里面leader、follow都是zk的概念】

producer：Producer将消息发布到指定的Topic中,同时Producer也能决定将此消息归属于哪个partition;比如基于”round-robin”方式或者通过其他的一些算法等.
consumer：一个consumer group里面有多个consumer，一个consumer只可以属于一个consumer group