西南证券开户

高手问答第 250 期 —— 是时候掌握真正的实时流计算技术了

发布于 07/21 18:32
阅读 5K+
收藏 20

实时流计算技术是当前最前沿的大数据处理方式,并且代表了未来大数据处理架构的主流模式。其对系统的低延时、高并发、高吞吐、高可用、高可靠都带来极大的挑战。作为一个传统的 Java 开发者,如何才能让自己不落于时代潮流之后?来吧,是时候掌握真正的实时流计算技术了!

OSCHINA 本期高手问答(2020 年 7 月 22 日——2020 年 7 月 28 日)邀请到了周爽老师  来与大家一起探讨:

  • Java 编程方面的问题,包括但不限于异步编程、流式编程、高并发、分布式等。
  • 实时流计算方面的问题,包括但不限于实时计算、流计算、Flink、各种分布式数据库等。

嘉宾简介

周爽,本硕毕业于华中科技大学,有 年研发经验。曾就职于华为技术有限公司 2012 实验室高斯部门,从事实时分析型内存数据库 RTANA 以及华为公有云 RDS 服务研发。之后进入上海行邑信息科技有限公司,从事移动反欺诈产品研发,并担任项目负责人和技术负责人。著有《实时流计算系统设计与实现》一书,已由机械工业出版社出版。

为了鼓励踊跃提问,华章图书会在问答结束后从提问者中抽取 名幸运读者,分别赠送正版《实时流计算系统设计与实现》本。

购书地址:

OSCHINA 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家向周爽老师  积极提问,直接回帖提问即可。

加载中
0
雑人

高手问答第 250 期 —— 是时候掌握真正的实时流计算技术了
        
恭喜以上五位网友分别获得图书一本
请私信   告知快递信息(格式:姓名+电话+地址)

0
源码分析55

@alain898   Apache Ignite 好用吗?这个主要用什么地方?

a
回复 : 目前Apache Ignite的主要问题在于国内使用得还不是非常普遍,文档和使用经验帖子相对其它一些流行的开源软件相对少些,一些最佳实践经验还需要自己去探索。
a
个人觉得,Apache Ignite的最大好处是,使得开发分布式系统成为非常简单容易的事情。CPU、内存、磁盘,在Apache Ignite的体系架构里,在应用层已经没有了本地和远程的区别。而且在分布式环境下,支持ACID以及数据的持久化,光这个特性也是非常惊艳。从使用接口来看,Apache Ignite除了支持类似于Java中Map这样的KV访问接口外,还支持SQL,使用起来也非常方便。
0
源码分析55

@alain898  Kafka消费数据太多,消费不过来的时候怎么办? Kafka的偏移量怎么管理比较好??

激萌路小叔
回复 : 赞:laughing:
a
如果数据太多,消费者消费不过来,可以增加topic partition的数量,这样可以支持更多并行的消费者。至于偏移量的话,kafka有个自带的工具kafka-consumer-groups.sh,能够非常方便地重新设置偏移量。
0
吐槽的达达仔

西南证券开户 实时流计算,如何和离线数据保持一致性??

a
实时流计算中的一致性问题,如果是实时计算中的状态,可以存放在诸如redis这样可以持久化的数据库中,或者像flink中的state状态,存放在计算节点本地,之后再导出到离线的存储里。如果是采用诸如lambda这样的实时计算和离线计算结合的方式,那么实时计算的结果是一段时间内有效的结果,最终的精确结果还是依赖于离线计算的结果的。
0
FrendLin

@alain898   周老师好,实时流计算在日志数据方面的应用除了监控系统、流量统计等监控运维相关外,有没有其他曙光场景?

 

a
实时流计算技术,或者我更具体地说Flink吧,应用场景是非常广的,除了监控、流量统计外,还有诸如日常数据ETL,CEP,风控,流数据模型训练和预测,等等场景都可以使用的。我个人觉得,不要局限着将Flink视为单纯的一个流计算框架,而是视为一个分布式的JVM,很多的应用都可以按照这种分布式的流式计算方式来设计。如果理解了这个思路,那实际上对于流计算技术,可能它的使用边界就是你所能想象的边界了。
0
crf1111

西南证券开户flink 有状态的数据流计算。

西南证券开户能不能简单介绍一下,flink目前主流的应用场景,还有没有类是的开源产品。谢谢。

a
Flink目前主流的应用场景可以参考前面一个问题的回答。其实有很多类似于Flink的开源产品,像Storm,Spark streaming,Samza等,但是目前主流的两种就是Flink和Spark streaming了,所以如果要做流计算的话,可以从Flink或者Spark streaming开始。个人更加偏向于使用Flink做流计算开发,觉得Flink是最先真正理解到“流”这种计算模式的框架。
0
大王来巡山

实时流计算是否需要大数据的支持,对于电商类有那些场景适用? 在云计算下 有什么应用场景?

a
这是个非常好的问题。现在很多人谈起计算机技术来,言必及“大数据”。但是实际上我们很多问题在单机上就可以非常好的解决,比如使用Java8中的CompletableFuture类就能够非常方便地实现实时流计算应用。而在电商场景中,尤其是一些to B的电商,其实每天的订单量有完全没有达到“大数据”的水平。“实时流计算”这种技术也无非是解决一类问题的最佳实践而已。至于具体的使用场景,可以参见其它答案。
0
WilsonHuang

西南证券开户 对中小团队来将,现在什么样的实时流计算方案比较适合?

a
毫无疑问,Flink是中小团队的不二之选。就算是预算只有单台机器,也可以使用Flink的单机模式来做开发和部署,这并没什么问题。然后当有一天你们的业务量上来之后,代码可以基本不做改变地扩展为分布式模式,因为只需要将Flink从单节点部署改变为分布式部署即可。
0
minghai
请教流计算是否一定推荐kafka吗?怎么做的集群高可用和数据同步?
a
现在有一个趋势,是使用Pravega+Flink来做大数据处理。个人觉得,这种模式挺好的,Flink充当CPU和内存的角色,Pravega充当存储。应该是未来主流的大数据处理模式。Kafka没能实现的目标之一可能会由Pravega实现吧。集群的高可用和数据同步这种问题,最好是交给Hadoop/Yarn/Ignite/CockRoach诸如此类的分布式计算或存储框架完成,如无必要,不要做额外开发。
0
DeanHere

身处医疗行业,大家是否有落地的实用方案可讨论?涉及到BI、实时数据共享、协同。

a
个人觉得,实时流计算是一种解决问题的技术方案吧,并不受限于用于哪个行业。你说的BI、实时数据共享、协同这些需求,如果实时流计算能够很好的解决问题,那就用呗:stuck_out_tongue_winking_eye:
返回顶部
顶部
发现配资网 五金股票新闻网 环保投资网 99挖财宝 知识之窗网 葫芦岛新闻网 诊股健康网