Flink日常问题

发表于 2020-06-17 | 分类于 Apache-Flink

字数统计 837 | 阅读时长 5

问题一：flink日志一直报错如下：123456789101112132019-07-29 16:41:42,634 ERROR org.apache.flink.runtime.rest.handler.job.JobDetailsHandler - Exception occurred in ...

阅读全文 »

日志清理

发表于 2020-06-17 | 分类于 Apache-Kafka ，深入理解Kafka读书笔记

字数统计 322 | 阅读时长 1

日志清理kafka message 存在磁盘中，为了控制磁盘占用空间的增加就需要对落盘的 message 做一定的清理操作。每个 Partition 对应的 Log 都有多个 LogSegment ，也是方便日志清理。目前有 delete 和 compact 两种策略： Log Retention ...

阅读全文 »

日志存储

发表于 2020-06-16 | 分类于 Apache-Kafka ，深入理解Kafka读书笔记

字数统计 1,628 | 阅读时长 6

日志目录布局offset：分区中每条消息都会分配一个唯一的序列号 Log：日志，不考虑副本的情况下，一个分区对应一个Log。N副本的情况下，一个分区有N个相同的Log分布在不同broker上 LogSegment：日志分段，防止Log过大，也是便于消息的维护和清理，Log会被切分为多个相对较小的文件 ...

阅读全文 »

Flink DataStream API介绍和示例

发表于 2020-06-15 | 分类于 Apache-Flink ， FlinkCoding

字数统计 1,472 | 阅读时长 7

DataStream API介绍和示例Flink程序运行流程1. 获取执行环境 getExecutionEnvironment() createLocalEnvironment() createRemoteEnvironment(String host, int port, String… ...

阅读全文 »

分区的管理

发表于 2020-06-15 | 分类于 Apache-Kafka ，深入理解Kafka读书笔记

字数统计 1,749 | 阅读时长 8

优先副本的选举 Kafka 通过副本机制来提升服务的可靠性，但是只有 leader 副本提供对外的读写服务，这样就意味着，当 leader 丢失时，需要从 follower 副本中选举一个 leader 来提供服务。Kafka 在我们创建 Topic 的时候，会尽量的把分区和副本均匀的分布在所有 ...

阅读全文 »

Druid初探

发表于 2020-06-15 | 分类于 Apache-Druid

字数统计 2,970 | 阅读时长 14

Apache Druid 是什么是一个为在大数据集之上做实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存储的层，一个分布式、shared-nothing的架构，和一个高级的索引结构，来达成在秒级以内对十亿行级别的表进行任意的探索分析。 Apache Druid 架构一个Druid集群包含 ...

阅读全文 »

Flink简单介绍

发表于 2020-06-15 | 分类于 Apache-Flink ， FlinkCoding

字数统计 1,330 | 阅读时长 6

What Apache FlinkApache Flink 是一个分布式大数据处理引擎，可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境，对各种大小的数据规模进行快速计算。分布式大数据处理引擎是一个分布式的、高可用的用于大数据处理的计算引擎有限流和无限流有限流：有始有终的数据流。 ...

阅读全文 »

Topic的管理

发表于 2020-06-13 | 分类于 Apache-Kafka ，深入理解Kafka读书笔记

字数统计 437 | 阅读时长 2

Topic的管理Topic的管理包括创建、查看、修改和删除 topic 等操作。四个操作均可以用 Kafka 提供的脚本 kafka-topic.sh 来执行。 12345[root@tnode1 bin]# cat kafka-topics.sh #!/bin/bash# ...

阅读全文 »

多线程消费

发表于 2020-06-12 | 分类于 Apache-Kafka ，深入理解Kafka读书笔记

字数统计 720 | 阅读时长 3

重要的消费者参数1.fetch.min.bytes默认值为 1 B。consumer 在一次 poll 时，拉取的最小数据量，小于该值时，consumer 需要进行等待，直到满足该参数的大小。当吞吐要求高时可以适当调大此参数用延迟换取吞吐。 2.fetch.max.bytes默认值为 5242880 ...

阅读全文 »

多线程消费

发表于 2020-06-11 | 分类于 Apache-Kafka ，深入理解Kafka读书笔记

字数统计 25 | 阅读时长 1

多线程消费总所周知，KafkaProducer 是线程安全的，而 KafkaConsumer 是非线程安全的。

阅读全文 »