kafka快速入门

退步的程序员 2018-07-31 16:40:03 ⋅ 816 阅读

为什么会有kafka

起源是数据集成，从不同地方拿数据，数据流非常的乱

数据集成超麻烦，你往往会发现你用在收集整理数据的时间是最多的，像这样

随着时代的发展，会有各种各样的新数据，特点：实时的，不断产生，量大

数据有两种：一种是数据库数据，比如用户、产品等关系型数据；另一种是实时的数据，比如数据（包括用户点击、浏览等），应用数据（包括CPU的使用等）和log。

因此有了各种各样的新系统来处理这些数据

但是这些数据产生后，产生的问题：数据爆炸

如果不同的数据用不同的数据库来存储监控，不同应用要从不同的地方取得需要的数据，就会这样（炸了）

问题：

数据源多

数据传输可靠性

数据一致性

所以Kafka出现了，把数据集成这个环节做的简洁高效，像这样

解决办法就是通过一个统一的部件来做数据的采集传输

Kafka把这个过程抽象了一下变成了这样（眼熟不眼熟，就是生产者消费者模型呀）：

kafka设计的基本原则

一个流能不能解决所有问题
不仅仅是消息系统，而是一个流处理系统
不仅是单台，而是clusters

特性：

支持大数据，高吞吐
保证消息的有序
数据持久化
支持分布式

Kafka最核心的是log，什么是log呢，log就是记录什么时间发生了什么事

log抽象起来就是有序序列

如果log非常多，就进行partition

当log很多就要做成分布式，对log分区，每个partition是独立的、不交互的，这样避免了partition之间的协调，非常高效。像这样：

那为什么不考虑不同partition之间的顺序呢？因为复杂度

工作流程就是数据源（生产者）将数据写入log，消费者从log中提取数据，log起到了一个消息队列的作用。所以Kafka就是一个基于分布式log实现的，具有发布／订阅功能的消息系统。

如何应用kafka

分布式系统

数据集成

实时计算

例子：

各个公司的ceo，如果其中某一个消息丢了怎么办

做法就是讲所有事件都排成有序队列，保证消息不丢

数据集成

因为Kafka用log记下了所有时间发生的所有事，任何一个状态都可以被恢复出来。Kafka的理念就是实时处理就是log加计算（Job），像这样：

---------------END----------------

后续的内容同样精彩

长按关注“IT实战联盟”哦

注意：本文归作者所有，未经作者允许，不得转载

全部评论: 0 条

我有话说:

Kafka系列一

前言刚学了rabbitmq, 怎么突然又开始了kafka? 艺多不压身 <摸着渐渐稀疏的头发> 只有对比才能有更深的理解起于专业，终于专业起步知乎上

来都来了
918
2

Kafka系列二

分区 Kafka 的消息组织方式实际上是三级结构：主题 - 分区 - 消息问题一：为什么 Kafka 要做这样的设计？为什么使用分区的概念而不是直接使用多个主题呢？分区的

来都来了
979
3

Spring Cloud（Greenwich版）-02-服务注册与服务发现-Eureka入门

Eureka入门

图解kafka - 设计原理解析

kafka使用总结

编程学思
803
0

精品推荐：快速入门Netty

BIO(缺乏弹性伸缩能力，并发量小，容易出现内存溢出，出现宕机每一个客户端对应一个线程伪异步IO

来都来了
722
0

Apache Kafka 2.7.1 发布

Apache Kafka 2.7.1 已发布，这是一个 bugfix 版本，其中包括来自 45 个 JIRA 的修复和改进，还修复了部分严重的错误。改进 [KAFKA-10852] - 优化

架构实战篇（七）：Spring Boot Data JPA 快速入门

Spring Data JPA 是Spring Data 的一个子项目，它通过提供基于JPA的Repository极大了减少了操作JPA的代码。

mulan
892
0

运用Docker快速部署分布式项目

快速搭建Docker分布式项目环境

SpringBoot+kafka+ELK分布式日志收集

Elasticsearch是一个高度可扩展的开源全文搜索和分析引擎。它允许您快速、实时地存储、搜索和分析大量数据。

mulan
1087
0

Apache Kafka 2.6.1 发布，分布式消息发布订阅系统

Apache Kafka 2.6.1 已经发布，这是一个 bug 修复版本，它包括 41 个 JIRA 的修复和改进。主要更新内容包括： Improvement [

编程学思
900
0

Yahoo 开源的 Pulsar 能否超越 Kafka？

来源：性能与架构链接：https://mp.weixin.qq.com/s/s4k9nioEDd1m2g0quj9kqA Pulsar 是类似于 Kafka 的一个消息中间件，是

Docker - 大数据环境快速搭建步骤

快速搭建一个大数据的环境，我们可以使用Docker来实现，文章会演示如何使用。

算法实战---OC快速排序(一)

近来在巩固数据结构和算法的知识, 动动手操作操作. 能讲出来是真的懂了, 分享是件快乐的事第一.

微服务架构实战篇：快速入手SpringBoot 2.0，欢迎入坑哦~~~

SpringBoot 2.0 基本要求Java最低要求8以上，不再支持Java 6 和 7等低版本。

转载：Kafka高可用，高吞吐量低延迟的高并发的特性背后实现机制

1 概述 Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式消息系统，Linkedin于2010年贡献给了Apache基金会并

京东技术：面对海量流量七步走保证用户体验（部分操作能够快速实战）

当促销活动正式开始时，不少用户开启了价格保护，在此高并发情况下，如何保证用户体验，如何保证系统的稳定性、高可用、快速计算结果，是本文的重点。

YuebonCore 1.0.1 发布，权限管理及快速开发框架

YuebonCore是基于.Net5.0开发的权限管理及快速开发框架，整合应用最新技术包括Asp.NetCore MVC、Dapper、AutoFac、WebAPI、Swagger、EF、Vue等

禅あ思
1228
0

Spring Initializr 0.1.0 发布，Spring 项目的快速开始生成器

Spring Initializr 0.1.0 已经发布。 Spring initializr 是一个 Spring 项目的快速开始生成器。其提供了一个可扩展的 API 来生成基于 JVM

TestableMock v0.6.0 发布，新增测试参数快速构造工具

项目介绍 TestableMock是一款由阿里效能团队开源的Java单元测试增强工具，提供四项具有针对性的辅助能力：快速Mock任意调用：解决传统Mock工具使用繁琐的问题访问被测类私有成员

小晨Maste
792
0

退步的程序员
- 20发布
- 7评论
收藏 0