- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Flink作业重启后，如何保证数据不丢失？

数据湖爱好者发表于 2021/04/28 09:32:36 2021/04/28

【摘要】 DLI Flink提供了完整可靠的Checkpoint/Savepoint机制，您可以利用该机制，保证在手动重启或者作业异常重启场景下，数据不丢失。

1. 为了避免系统故障导致作业异常自动重启后，数据丢失。

对于Flink SQL作业，您可以勾选开启Checkpoint，并合理配置Checkpoint间隔（权衡执行Checkpoint对业务性能的影响以及异常恢复的时长），同时勾选异常自动重启，并勾选从Checkpoint恢复。配置后，作业异常重启，会从最新成功的checkpoint文件恢复内部状态和消费位点，保证数据不丢失及聚合算子等内部状态的精确一致语义。同时，为了保证数据不重复，建议使用带主键数据库或者文件系统作为目标数据源，否则下游处理业务需要加上去重逻辑（最新成功checkpoint记录位点到异常时间段内的数据会重复消费）。
对于Flink jar作业，您需要参考https://support.huaweicloud.cn/dli_faq/dli_03_0038.html，在代码中开启Checkpoint，同时如果有自定义的状态需要保存，您还需要实现ListCheckpointed接口，并为每个算子设置唯一ID。然后在作业配置中，勾选从Checkpoint恢复，并准确配置Checkpoint路径。注意：Flink Checkpoint机制可以保证Flink平台可感知内部状态的精确一致，但对于自定义Source/Sink或者有状态算子，需要合理实现ListCheckpointed接口，来保证业务数据需要的可靠性。

2. 为了避免因业务修改等需要，手动重启作业后，数据不丢失。

对于无内部状态的作业，您可以配置kafka数据源的启动时间或者消费位点到作业停止之前。
对于有内部状态的作业，您可以在停止作业时，勾选触发保存点。成功后，再次启动作业时，开启恢复保存点按钮，作业将从选择的savepoint文件中恢复消费位点及状态。同时，由于Flink Checkpoint和Savepoint生成机制及格式一致，因而，也可以通过Flink作业列表 -> 更多 -> 导入保存点，导入OBS中最新成功的Checkpoint，并从中恢复。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Flink作业重启后，如何保证数据不丢失？

1. 为了避免系统故障导致作业异常自动重启后，数据丢失。

2. 为了避免因业务修改等需要，手动重启作业后，数据不丢失。

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Flink作业重启后，如何保证数据不丢失？

1. 为了避免系统故障导致作业异常自动重启后，数据丢失。

2. 为了避免因业务修改等需要，手动重启作业后，数据不丢失。

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品