创建 Atlas Data Lake 管道
您可以使用 Atlas 用户界面、Data Lake 管道API和 Atlas CLI 创建 Atlas Data Lake 管道。 本页将指导您完成创建 Atlas Data Lake 管道的步骤。
先决条件
在开始之前,您必须具备以下条件:
已启用备份
M10
或更高版本的 Atlas 集群。Project Owner
要为其部署 Data Lake 的项目的角色。
步骤
如需使用 Atlas CLI 创建新的 Data Lake 管道,请运行以下命令:
atlas dataLakePipelines create <pipelineName> [options]
要了解有关命令语法和参数的更多信息,请参阅atlas dataLakePipelines create 的 Atlas CLI 文档。
观察管道是否完成
如需使用 Atlas CLI 观察指定数据湖管道是否完成,请运行以下命令:
atlas dataLakePipelines watch <pipelineName> [options]
要了解有关命令语法和参数的更多信息,请参阅atlas dataLakePipelines watch 的 Atlas CLI 文档。
要通过API创建 Atlas Data Lake 管道,请向Data Lake pipelines
端点发送POST
请求。要了解有关用于创建管道的pipelines
端点语法和参数的更多信息,请参阅创建单个数据湖管道。
提示
您可以向Data Lake availableSchedules端点发送GET
请求,以检索可用于创建PERIODIC_DPS
类型的 Data Lake 管道的备份计划策略项列表。
登录 MongoDB Atlas 。
定义管道的数据源。
您可以在 MongoDB 托管的云对象存储中的 Atlas 集群上创建数据副本,该存储针对具有工作负载隔离性的分析查询进行了优化。
要设置管道,请在Setup Pipeline页面中指定以下内容:
从下拉列表中选择 Atlas 集群。
例子
如果已在集群上加载样本数据,请选择已加载样本数据的 Atlas 集群。
从下拉列表中选择指定集群上的数据库,如果下拉列表中未列出该数据库,请在字段中键入数据库名称。
如果 Atlas Data Lake 无法获取指定集群的数据库名称,则不会显示该数据库。
例子
如果您选择了加载样本数据的集群,请选择
sample_mflix
。从下拉列表中选择指定数据库中的集合;如果该集合不可用,请在字段中键入集合名称。
如果 Atlas Data Lake 无法获取指定集群的集合命名空间,则不会显示该集合。
Atlas Data Lake 不支持将视图作为管道的数据源。您必须从集群中选择一个集合。
例子
如果选择了
sample_mflix
数据库,请选择sample_mflix
数据库中的movies
collection。输入管道名称。
Atlas Data Lake 管道名称不能超过64字符,并且不能包含:
正斜杠 (
/
),反斜杠 (
\
)空格
美元符号 (
$
)
例子
如果您按照本教程中的示例进行操作,请在Pipeline Name字段中输入
sample_mflix.movies
。单击 Continue(连接)。
指定集群数据的摄取安排。
您可以指定从 Atlas 备份快照提取集群数据并将其引入 Data Lake 数据集的频率。每个快照都代表该时间点的数据,这些数据存储在工作负载隔离的分析存储中。您可以查询 Data Lake 数据集中的任何快照数据。
您可以选择Basic Schedule或On Demand 。
Basic Schedule 允许您定义从可用快照自动摄取数据的频率。您必须从以下时间表中进行选择。选择与您的备份计划类似的Snapshot Schedule :
每天
每周六
每月最后一天
例如,如果您选择Every day
,则必须在策略中配置Daily
备份计划。或者,如果要选择每周一次的计划,则必须在策略中配置Weekly
备份计划。要了解更多信息,请参阅备份计划。您可以向Data Lake availableSchedules端点发送GET
请求,以检索可在 Data Lake 管道中使用的备份计划策略项列表。
例子
对于本教程,如果您还没有备份安排,请从Snapshot Schedule下拉列表中选择Daily 。如果您有备份安排,则可用选项基于您为备份安排设置的安排。
On Demand 允许您随时手动触发从可用快照中摄取数据。
例子
在本教程中,如果您选择On Demand ,则必须在创建管道后手动触发从快照中摄取数据。要了解更多信息,请参阅触发按需数据摄取。
指定collection中的字段以创建分区。
在Partition Attributes部分输入集合中最常查询的字段。要指定嵌套字段,请使用点表示法。不要在使用点表示法指定的嵌套字段两边加上引号 ( ""
)。不能在数组内指定字段。指定的字段用于对数据进行分区。
警告
不能指定包含句号 (.
) 的字段名进行分区。
最常查询的字段应列在顶部,因为它们比列在列表下方的字段对性能和成本的影响更大。字段的顺序与复合索引一样重要。按第一个字段为查询优化数据,然后是第二个字段,依此类推。
例子
在 字段中输入 year
Most commonly queried field,并在title
Second most commonly
queried field 字段中输入 。
Atlas Data Lake 首先针对year
字段优化性能,然后针对title
字段进行性能优化。如果您为 Data Lake 数据集配置联合数据库实例,Atlas Data Federation 会优化以下字段的查询性能:
year
字段,以及year
字段和title
字段。
Atlas Data Federation 还可以支持仅对title
字段的查询。但是,在这种情况下,Atlas Data Federation 在支持查询方面的效率不如查询仅针对title
字段。性能按顺序优化;如果查询省略了特定分区,Atlas Data Federation 在使用该分区之后的任何分区时效率会降低。
您可以对此处未指定的字段运行 Atlas Data Federation 查询,但 Atlas Data Lake 处理此类查询的效率较低。
后续步骤
现在您已经创建了 Data Lake 管道,请继续为您的数据集设置联合数据库实例。