Docs 菜单
Docs 主页
/ /
MongoDB Atlas Data Lake
/

创建 Atlas Data Lake 管道

在此页面上

  • 先决条件
  • 步骤
  • 后续步骤

您可以使用 Atlas 用户界面、Data Lake 管道API和 Atlas CLI 创建 Atlas Data Lake 管道。 本页将指导您完成创建 Atlas Data Lake 管道的步骤。

在开始之前,您必须具备以下条件:

  • 已启用备份 M10 或更高版本的 Atlas 集群。

  • Project Owner 要为其部署 Data Lake 的项目的角色。

  • 在集群上加载的样本数据(如果您想尝试以下过程中的示例)。

如需使用 Atlas CLI 创建新的 Data Lake 管道,请运行以下命令:

atlas dataLakePipelines create <pipelineName> [options]

要了解有关命令语法和参数的更多信息,请参阅atlas dataLakePipelines create 的 Atlas CLI 文档。

提示

请参阅:相关链接

如需使用 Atlas CLI 观察指定数据湖管道是否完成,请运行以下命令:

atlas dataLakePipelines watch <pipelineName> [options]

要了解有关命令语法和参数的更多信息,请参阅atlas dataLakePipelines watch 的 Atlas CLI 文档。

提示

请参阅:相关链接

要通过API创建 Atlas Data Lake 管道,请向Data Lake pipelines端点发送POST请求。要了解有关用于创建管道的pipelines端点语法和参数的更多信息,请参阅创建单个数据湖管道。

提示

您可以向Data Lake availableSchedules端点发送GET请求,以检索可用于创建PERIODIC_DPS类型的 Data Lake 管道的备份计划策略项列表。

1
2
  1. 如果尚未显示,请选择包含您的项目的组织导航栏中的 Organizations菜单。

  2. 如果尚未显示,请从导航栏的 Projects 菜单中选择您的项目。

  3. 在侧边栏中,单击Deployment标题下的Data Lake

3
4

您可以在 MongoDB 托管的云对象存储中的 Atlas 集群上创建数据副本,该存储针对具有工作负载隔离性的分析查询进行了优化。

要设置管道,请在Setup Pipeline页面中指定以下内容:

  1. 从下拉列表中选择 Atlas 集群。

    例子

    如果已在集群上加载样本数据,请选择已加载样本数据的 Atlas 集群。

  2. 从下拉列表中选择指定集群上的数据库,如果下拉列表中未列出该数据库,请在字段中键入数据库名称。

    如果 Atlas Data Lake 无法获取指定集群的数据库名称,则不会显示该数据库。

    例子

    如果您选择了加载样本数据的集群,请选择sample_mflix

  3. 从下拉列表中选择指定数据库中的集合;如果该集合不可用,请在字段中键入集合名称。

    如果 Atlas Data Lake 无法获取指定集群的集合命名空间,则不会显示该集合。

    Atlas Data Lake 不支持将视图作为管道的数据源。您必须从集群中选择一个集合。

    例子

    如果选择了sample_mflix数据库,请选择sample_mflix数据库中的moviescollection。

  4. 输入管道名称。

    Atlas Data Lake 管道名称不能超过64字符,并且不能包含:

    • 正斜杠 ( / ),

    • 反斜杠 ( \ )

    • 空格

    • 美元符号 ( $ )

    例子

    如果您按照本教程中的示例进行操作,请在Pipeline Name字段中输入sample_mflix.movies

  5. 单击 Continue(连接)。

5

您可以指定从 Atlas 备份快照提取集群数据并将其引入 Data Lake 数据集的频率。每个快照都代表该时间点的数据,这些数据存储在工作负载隔离的分析存储中。您可以查询 Data Lake 数据集中的任何快照数据。

您可以选择Basic ScheduleOn Demand

Basic Schedule 允许您定义从可用快照自动摄取数据的频率。您必须从以下时间表中进行选择。选择与您的备份计划类似的Snapshot Schedule

  • 每天

  • 每周六

  • 每月最后一天

例如,如果您选择Every day ,则必须在策略中配置Daily备份计划。或者,如果要选择每周一次的计划,则必须在策略中配置Weekly备份计划。要了解更多信息,请参阅备份计划。您可以向Data Lake availableSchedules端点发送GET请求,以检索可在 Data Lake 管道中使用的备份计划策略项列表。

例子

对于本教程,如果您还没有备份安排,请从Snapshot Schedule下拉列表中选择Daily 。如果您有备份安排,则可用选项基于您为备份安排设置的安排。

On Demand 允许您随时手动触发从可用快照中摄取数据。

例子

在本教程中,如果您选择On Demand ,则必须在创建管道后手动触发从快照中摄取数据。要了解更多信息,请参阅触发按需数据摄取。

6

Atlas Data Lake 在以下 AWS 地区提供优化的存储:

数据湖区域
AWS 区域
美国弗吉尼亚州
us-east-1
美国俄勒冈州
us-west-2
巴西圣保罗
sa-east- 1
爱尔兰
eu-west- 1
英国伦敦
eu-west- 2
德国法兰克福
eu-central- 1
印度孟买
ap-south-1
新加坡
ap-southeast-1
澳大利亚悉尼
亚太东南部-2

默认情况下,Atlas Data Lake 会自动选择距离 Atlas 集群最近的地区来存储提取的数据。如果 Atlas Data Lake 无法确定地区,则默认为us-east-1

7

Partition Attributes部分输入集合中最常查询的字段。要指定嵌套字段,请使用点表示法。不要在使用点表示法指定的嵌套字段两边加上引号 ( "" )。不能在数组内指定字段。指定的字段用于对数据进行分区。

警告

不能指定包含句号 (.) 的字段名进行分区。

最常查询的字段应列在顶部,因为它们比列在列表下方的字段对性能和成本的影响更大。字段的顺序与复合索引一样重要。按第一个字段为查询优化数据,然后是第二个字段,依此类推。

例子

在 字段中输入 yearMost commonly queried field,并在titleSecond most commonly queried field 字段中输入 。

Atlas Data Lake 首先针对year字段优化性能,然后针对title字段进行性能优化。如果您为 Data Lake 数据集配置联合数据库实例,Atlas Data Federation 会优化以下字段的查询性能:

  • year字段,以及

  • year字段和title字段。

Atlas Data Federation 还可以支持仅对title字段的查询。但是,在这种情况下,Atlas Data Federation 在支持查询方面的效率不如查询仅针对title字段。性能按顺序优化;如果查询省略了特定分区,Atlas Data Federation 在使用该分区之后的任何分区时效率会降低。

您可以对此处未指定的字段运行 Atlas Data Federation 查询,但 Atlas Data Lake 处理此类查询的效率较低。

8

默认情况下,Atlas Data Lake 会提取文档中的所有字段并将其存储在 collection 中。要指定要排除的字段,请执行以下操作:

  1. 单击 Add Field(连接)。

  2. Add Transformation Field Name窗口中输入字段名称。

    例子

    (可选)输入fullplot fullplotmovies以排除collection中名为 的字段。

  3. 单击 Done(连接)。

  4. 对每个要排除的字段重复步骤。要从此列表中删除字段,请单击

9

现在您已经创建了 Data Lake 管道,请继续为您的数据集设置联合数据库实例。

后退

开始体验

来年

第 2 步:设置联合数据库实例