一个可变日期具体取决于工作流的计划执行
因此我们建议使用 来监控扫描的数据并使用 来限制扫描的数据。 限制扫描数据量的主要方法之一是在创建表时使用基于时间的分区。这允许查询仅扫描指定日期范围的数据。可以将查询结果插入到现有表中并使用 更新该表的分区。 从上生成输出文件 但永远不会删除上的文件。如果多次运行相同的 查询 每次都会生成新的输出但永远不会删除先前运行的输出。 鉴于上述情况我们能够使用以简单且可扩展的方式执行数据处理。计费基础使我们能够以细粒度的方式管理成本。阿帕奇气流 我们使用 来安排和编排我们的工作流程。工作流被定义为相关任务 美国电报数据 的有向无环图 。每个任务都是一种操作符并指定一些要完成的工作单元。例如 提供了执行所提供的查询的工具。允许我们重新运行之前安排的甚至任务子集。通过确保每个任务执行仅更新单个分区可以轻松理解重新运行多个任务的结果。模板 我们使用的 宏和模板 将工作流的计划执行日期替换为查询字符串。这使我们能够确保工作流程的每次执行仅扫描表分区的特定子集。
https://lh7-us.googleusercontent.com/ByIBkmNB2nywC2xnzyr5VsvWvCdtBlAtngTxCNdr4aDh2Tm6mZK-de_w1SkHvJHKt-kpzZGhSZNNNnnP-scegVKkIbsud8UMszofOrw_AJcP7UgUCRx-tQrrT2A46EsXM6e2A5mw3aR17ZUGU9gXswA
例如以下查询字符串包含日期:因此计划于 年 月 日执行的工作流程将呈现如下: 可重新运行的任务 我们现在拥有所有必需的组件: 来表达我们的数据处理。 执行并将结果输出到表中。编排我们的工作流程并提供特定于日期的 。 缺少的是重新运行任务后保持一致状态的能力。 如果我们使用单个日期重新运行任务 则输出将附加到该日期的现有数据中。此外不会发布特定任务的指标。 指标使我们能够轻松识别昂贵的工作流程。我们需要一个解决方案来提供一致的状态使我们能够发布指标。
頁:
[1]