chaoz的杂货铺

生命有息、学无止境、折腾不止

0%

java-大数据-实时数据处理

问题

1、kafka 无法保证数据的顺序,flume == 》 kafka 里面去

  • 一个分区
  • 将相同的订单的数据,发送到同一个分区里面去
    • kafka 的分区策略:key value 轮询 自定义
      20210119223437

2、如果 kafka的分区动态添加了, sparkstreamingi的程序能不能做到无感知的消费到新的分区的数据。

20210119224043

20210119224205

20210119224434

3、如何监听zk的节点?

4、有这样一个场景每次处理的数据是拉取 kafka的一个小时的数据(这部分数据必须是同一个小时内产生的数据),第二次处理的数据需要和第一次处理的数据进行整合处理后一部分入库,留下的部分数据继续和第三次的数据进行整合,部分数据入库,剩下的数据继续和第四次的数据整合,以此类推该米用什么样的架构和怎么去做容灾

可以考虑将需要留下的数据再写回去到 kafka新的 topic

5、GIS =》 地理测绘

uber H3 算法(geohash) 算出虚拟车站

20210119231944

6、20210119233123

7、spa istream消费 kafka的数据,等处理逻辑完毕后提交偏移量至 kafka,不是也可以保证只消费一次吗?
可以的,没有问题,,也保存到 kafka里面的。
保存到 hbase我想可能是因为 rrowkey的唯一性做到幂等性

8、为什么要保存到 hbase,如果 kafka中数据过期了,那数据就没有了。保存了偏移量也不能从上次数据的末尾开始消费?
可以修正 offset的值,每次去消费数据的时候,带上 hbase的。 ffset与 kafka当中数据的 offset进行比较
kafka的 offset < hasel的 offset

9、sprkstreamina不是也是实时消费
默认是每隔200ms获取一次数据,形成一个b1ock

10、spark不是按照事件时间处理的,flink里面就有 eventtimel

11、kafka分区压力那是分发算法问题吧,, round roubin不行么
有时候需要保证数据的顺序性的消费问题
round roubin 只是在做轮询

12、spark读取有k8s的hive数据,怎么处理下?
kuberos 安全认证方面

13、20210120221848

14、如何设计 rowkeyli以及做分区的操作=》实现通过 rowley来实现数据均匀的落到各个分区里面去

15、如何实现预分区
数据负载均衡

16、20210120231706

17、预分区的实现
20210120231738

使用 | 来当作最大字段值

18、20210120231910

19、20210120233047

逻辑实现

20210120215321

20210120215520

20210120220235

20210120220411

20210120220826

20210120221320

20210120221434

20210120221653
20210120225120

20210120232719

喜欢这篇文章?打赏一下作者吧!

欢迎关注我的其它发布渠道