Kafka是一个分布式流处理平台,由LinkedIn开发并于2011年贡献给了Apache软件基金会,它主要用于构建实时数据流管道和应用程序,以便在数据量不断增加时能够保持低延迟、高吞吐量和可扩展性,本文将介绍如何实现Kafka的入门,包括安装Kafka、创建主题、生产者和消费者等基本概念和技术。
一、安装Kafka
1. 下载Kafka
访问Kafka官网()下载最新版本的Kafka,解压下载的文件到本地目录。
2. 配置Kafka
在解压后的目录中,找到`config`文件夹,编辑`server.properties`文件,主要需要配置以下参数:
- `broker.id`:每个Kafka broker的唯一标识符,通常设置为整数,如0、1、2等。
- `zookeeper.connect`:Zookeeper集群的连接地址,格式为`host1:port1,host2:port2,host3:port3`,多个主机用逗号分隔。
- `log.dirs`:Kafka日志存储的路径,可以设置多个路径,用逗号分隔。
- `num.partitions`:主题的分区数,可以根据实际需求调整。
3. 启动Zookeeper
在Kafka的根目录下,运行以下命令启动Zookeeper:
bin/zookeeper-server-start.sh config/zookeeper.properties
4. 启动Kafka
在另一个终端窗口中,运行以下命令启动Kafka:
bin/kafka-server-start.sh config/server.properties
Kafka已经成功安装并启动,接下来我们将学习如何创建主题、生产者和消费者等基本概念和技术。
二、创建主题
1. 创建生产者
在Kafka中,生产者负责将消息发送到指定的主题,我们需要编写一个简单的Java程序来创建生产者,以下是一个简单的示例:
import org.apache.kafka.clients.producer.KafkaProducer; import org.apache.kafka.clients.producer.Producer; import org.apache.kafka.clients.producer.ProducerRecord; import java.util.Properties; public class SimpleProducer { public static void main(String[] args) { Properties props = new Properties(); props.put("bootstrap.servers", "localhost:9092"); props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer"); props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer"); Producer<String, String> producer = new KafkaProducer<>(props); for (int i = 0; i < 100; i++) { producer.send(new ProducerRecord<String, String>("test_topic", Integer.toString(i), "Message " + i)); } producer.close(); } }
2. 创建消费者
消费者负责从指定的主题中读取消息,以下是一个简单的Java程序来创建消费者:
```java
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.serialization.StringDeserializer;
import java.time.Duration;
import java.util.Collections;
import java.util.Properties;
public class SimpleConsumer {
public static void main(String[] args) {
Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.put("group.id", "test_group");
props.put("key.deserializer", StringDeserializer.class);
props.put("value.deserializer", StringDeserializer.class);
props.put("auto.offset.reset", "earliest");
props.put("enable.auto.commit", "true");
props.put("auto.commit.interval.ms", "1000");
props.put("max.poll.records", "10");
props.put("session.timeout.ms", "30000");
props.put("heartbeat.interval.ms", "5000");
props.put("max.poll.interval.ms", "60000");
props.put("metadata.max.age.ms", "1000");
props.put("store.offsets", "true");
props.put("exclude", "auto.offset"); // 不自动提交偏移量到broker,避免与新加入的consumer冲突,如果不设置此项,那么第一次消费会自动提交偏移量,之后再消费时,会自动获取上一次消费的位置,这样就不需要手动调用commit方法了,但是如果有多个consumer共享同一个topic的话,可能会出现问题,因为每个consumer都有自己的offset store(保存各自的偏移量),所以如果没有设置exclude这个参数,那么当所有的consumer都已经消费完一次后,就会再次从头开始消费,这样就相当于没有消费过任何消息,因此需要设置exclude这个参数来避免这个问题,另外需要注意的是,如果你使用的是单机模式的话,那么这个参数就不需要设置了,因为单机模式只有一个consumer,所以不存在竞争的问题,但是如果是集群模式的话,就需要设置这个参数了。
原创文章,作者:K-seo,如若转载,请注明出处:https://www.kdun.cn/ask/33111.html