kafka min.insync.replicas와 repllica-factor 테스트

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

b

kafka min.insync.replicas와 repllica-factor 테스트 본문

카테고리 없음

kafka min.insync.replicas와 repllica-factor 테스트

dev.bistro 2019. 4. 17. 23:23

2017.07에 테스트 한것을 가져옴 kafka version 1.1

1. min.insync.replicas=2, replication-factor=1

생성) kafka-topics --create --zookeeper localhost:2181 --config min.insync.replicas=2 --topic top2 --partitions 1 --replication-factor 1
> 생성은 잘 된다.
> 의견 : 생성 자체가 안되었으면 좋았을것 같다 (alter에서 수정하면 정상적으로 쓸 수 있기는 하다) - 생각해보면 min.insync.replicas가 relicas보다 많더라도, kafka-client에서 acks를 all로 하지 않는 다면 의미 없는 설정이다. 그렇기 때문에 '만들어 지는 것'자체에 validation check는 하지 않았던 것 아닐까?

상태)

Topic:top2 PartitionCount:1 ReplicationFactor:1 Configs:min.insync.replicas=2
Topic: top2 Partition: 0 Leader: 1 Replicas: 1 Isr: 1

메시지발행)

* acks=1 - 정상적으로 데이터가 적재된다.
* acks=all - 데이터가 적재되지 않는다
ㄴ client 에서 Exception이 발생한다
Caused by: org.apache.kafka.common.errors.NotEnoughReplicasException: Messages are rejected since there are fewer in-sync replicas than required
ㄴ broker : 리더인 1번 브로커에서 에러가 발생한다.

ERROR [ReplicaManager broker=1] Error processing append operation on partition top2-0 (kafka.server.ReplicaManager)
org.apache.kafka.common.errors.NotEnoughReplicasException: Number of insync replicas for partition top2-0 is [1], below required minimum [2]
INFO [GroupMetadataManager brokerId=1] Removed 0 expired offsets in 0 milliseconds. (kafka.coordinator.group.GroupMetadataManager)

2. min.insync.replicas=2, replication-factor=3

생성) kafka-topics --create --zookeeper localhost:2181 --config min.insync.replicas=2 --topic top2re2 --partitions 1 --replication-factor 1
상태)

Topic:top2re2 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: top2re2 Partition: 0 Leader: 0 Replicas: 0,2,1 Isr: 0,2,1

메시지의발행)
* acks=1 : 데이터가 정상 적재된다.
* acks=all : 데이터가 정상 적재된다
이 상황에서 Broker2를 강제로 kill하여, cluster가 2EA로 동작하도록 함

상태)

Topic:top2re2 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: top2re2 Partition: 0 Leader: 0 Replicas: 0,2,1 Isr: 0,1

cluster2EA에서 메시지의발행)
* acks=1 : 데이터가 정상 적재된다.
* acks=all : 데이터가 정상 적재된다
코멘트) 이미 토픽이 만들어 졌다면, replicas 설정보다 브로커 갯수가 적더라도 적재하는데 이슈는 안된다. 단! AdminUtils ( https://github.com/apache/kafka/blob/1.1.0/core/src/main/scala/kafka/admin/AdminUtils.scala ) 를 사용하는 kafka-topic bash 등을 이용 할 때에는 생성 시점에서 브로커 갯수와 replicas 갯수를 체크를 한다.

이 상황에서 다시한번 Broker1를 강제로 kill하여, cluster가 1EA로 동작하도록 함

Topic:top2re2 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: top2re2 Partition: 0 Leader: 0 Replicas: 0,2,1 Isr: 0

메시지의발행)
* acks=1 : 데이터가 정상 적재된다.
* acks=all : 데이터가 적재되지 않는다 (에러메시지는 첫 번째 테스트와 동일하다)
* acks=all 하고 retries=1로 설정
> 동일하게 메시지는 적재되지 않고 Client Exception 도 동일, Server는 retry 설정 수만큼 메시지가 출력된다.

[2018-07-02 15:32:37,641] ERROR [ReplicaManager broker=0] Error processing append operation on partition top2re2-0 (kafka.server.ReplicaManager)
org.apache.kafka.common.errors.NotEnoughReplicasException: Number of insync replicas for partition top2re2-0 is [1], below required minimum [2]
[2018-07-02 15:32:37,746] ERROR [ReplicaManager broker=0] Error processing append operation on partition top2re2-0 (kafka.server.ReplicaManager)
org.apache.kafka.common.errors.NotEnoughReplicasException: Number of insync replicas for partition top2re2-0 is [1], below required minimum [2]

3. 요약 및 결론

1. ack=all에서 실재 중요한 것은 min.insync.replicas 만큼 브로커가 있어야 한다는 것이다.
ㄴ 공식 문서에서 min.insync.replicas 를 설명한대로다 When a producer sets acks to "all" ...
ㄴ NotEnoughReplicas 등의 에러가 발생하고
2. 토픽을 생성 할때 reclias 갯수보다 broker 갯수가 작으면 생성이 되지 않지만, 생성이 된 이후에는 메시지 발행/소비와는 무관하다
3. ack 0, 1 일때도 min.insync.replicas 갯수는 상관없다. (ack=1 로 셋팅하더라도 leader 가 반응을 해줄테니까)
4. min.insync.replicas=1도 큰 의미는 없다 (3번과 마찬가지로 leader가 반응해줄테니까)

4. 추가 테스트1

브로커 3대, replicas 3인 토픽에 데이터를 발행중

브로커 2번 죽음 (즉 브로커 0,1번에만 데이터가 들어가고 복제됨)
브로커 2번을 zookeeper 주소만 다르게 해서 완전 독립적인 클러스터로 실행함
- 데이터가 0,1번 브로커에 비해 1개 부족한 것을 확인
브로커 2번의 zookeeper 원래대로 원복해서 실햄함. (즉 원래 클러스터 3으로 다시 띄움)
다시 한번 2번 브로커를 죽이고 zookeeper 주소만 다르게 해서, 다시 실햄함
- 원래 클러스터 (현재는 브로커가2개) 와 동일하게 데이터가 싱크됨
이 데이터 복구는 토픽의 리더가 브로커가 살아 나는 것을 감지함으로써 시작된다.
- 리더 브로커(1) 의 로그
  - [2018-07-02 15:14:51,800] INFO [Partition top2re2-0 broker=1] Expanding ISR from 1,0 to 1,0,2
- 다시 살아난 브로커(2)의 로그
  - [2018-07-02 15:14:51,769] INFO [ReplicaFetcher replicaId=2, leaderId=1, fetcherId=0] Based on follower's leader epoch, leader replied with an offset 7 >= the follower's log end
    [2018-07-02 15:14:51,789] INFO Updated PartitionLeaderEpoch. New: {epoch:3, offset:7}, Current: {epoch:1, offset:3} for Partition: top2re2-0. Cache now contains 2 entries. (kafka.server.epoch.LeaderEpochFileCache)

5. 추가 테스트2 (cluster에 사이즈에 따라 leader가 분배된다)

여러개의 토픽을 만든 후, Broker 1개를 죽였을 경우, ISR의 변화

Topic:k1 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k1 Partition: 0 Leader: 0 Replicas: 0,2,1 Isr: 0,2,1
Topic:k2 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k2 Partition: 0 Leader: 2 Replicas: 2,0,1 Isr: 2,0,1
Topic:k3 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k3 Partition: 0 Leader: 2 Replicas: 2,0,1 Isr: 2,0,1
Topic:k4 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k4 Partition: 0 Leader: 1 Replicas: 1,2,0 Isr: 1,2,0
Topic:k5 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k5 Partition: 0 Leader: 1 Replicas: 1,2,0 Isr: 1,2,0

여기에서 broker2를 down 시키면 아래처럼 leader:2가 0,1으로 분산되어 동작한다.

Topic:k1 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k1 Partition: 0 Leader: 0 Replicas: 0,2,1 Isr: 0,1
Topic:k2 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k2 Partition: 0 Leader: 0 Replicas: 2,0,1 Isr: 0,1
Topic:k3 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k3 Partition: 0 Leader: 0 Replicas: 2,0,1 Isr: 0,1
Topic:k4 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k4 Partition: 0 Leader: 1 Replicas: 1,2,0 Isr: 1,0
Topic:k5 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k5 Partition: 0 Leader: 1 Replicas: 1,2,0 Isr: 1,0

여기서 다시 broker1을 down 시키면 모든 leader는 0이 된다.

Topic:k1 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k1 Partition: 0 Leader: 0 Replicas: 0,2,1 Isr: 0
Topic:k2 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k2 Partition: 0 Leader: 0 Replicas: 2,0,1 Isr: 0
Topic:k3 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k3 Partition: 0 Leader: 0 Replicas: 2,0,1 Isr: 0
Topic:k4 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k4 Partition: 0 Leader: 0 Replicas: 1,2,0 Isr: 0
Topic:k5 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k5 Partition: 0 Leader: 0 Replicas: 1,2,0 Isr: 0

여기에서 다시 broker1,2를 up 하면, 여전히 leader는 0에 있다. 이렇게 될 경우 모든 트래픽을 0번만 받지 않을까? 라는 의문이 들지만

Topic:k1 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k1 Partition: 0 Leader: 0 Replicas: 0,2,1 Isr: 0,1,2
Topic:k2 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k2 Partition: 0 Leader: 2 Replicas: 2,0,1 Isr: 0,1,2
Topic:k3 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k3 Partition: 0 Leader: 2 Replicas: 2,0,1 Isr: 0,1,2
Topic:k4 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k4 Partition: 0 Leader: 1 Replicas: 1,2,0 Isr: 0,1,2
Topic:k5 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=2
Topic: k5 Partition: 0 Leader: 1 Replicas: 1,2,0 Isr: 0,1,2
Topic:top1 PartitionCount:1 ReplicationFactor:3 Configs:min.insync.replicas=1

시간이 지나면 leader는 재조정된다.
이 설정은 leader.imbalance.check.interval.seconds(default:5분)에 의해서 리서치 된다.
이 설정값은 auto-leader-rebalance-task 라는 스케줄러에 의해 재분배 된다.

Comments

b

kafka min.insync.replicas와 repllica-factor 테스트 본문

kafka min.insync.replicas와 repllica-factor 테스트

1. min.insync.replicas=2, replication-factor=1

2. min.insync.replicas=2, replication-factor=3

3. 요약 및 결론

4. 추가 테스트1

5. 추가 테스트2 (cluster에 사이즈에 따라 leader가 분배된다)

티스토리툴바