/ /

Azure Blob 저장

Atlas Data Federation은 연합 데이터베이스 인스턴스 저장소로 Azure Blob Storage 컨테이너를 지원합니다.더 데이터에 대한 쿼리를 실행하려면 연합 데이터베이스 인스턴스에서 Azure Blob Storage 컨테이너에 대한 매핑을 정의해야 합니다.

참고

이 페이지에서는 블롭을 파일로, 구분 기호로 구분된 접두사를 디렉토리로 지칭하지만, 이러한 블롭 스토리지 서비스는 실제로 파일 시스템이 아니며 모든 경우에 하드 드라이브의 파일과 동일하게 동작하는 것은 아닙니다.

구성 파일 형식

Azure Blob Storage 컨테이너 에 대한 연합 데이터베이스 인스턴스 저장 정의하려면 구성 매개 변수를 JSON 형식으로 지정할 수 있습니다. 구성에는 Azure Blob Storage 데이터 저장 포함되어 있으며 쿼리 할 수 있는 가상 컬렉션에 매핑합니다.

Azure Blob Storage 컨테이너의 데이터에 대한 JSON 구성은 다음 필드를 사용합니다.

1 {
2     "stores" : [
3       {
4         "name" : "<string>",
5         "provider": "<string>",
6         "region" : "<string>",
7         "serviceURL" : "<string>",
8         "containerName" : "<string>",
9         "delimiter" : "<string>",
10         "prefix": "<string>",
11         "public": <boolean>
12       }
13     ],
14     "databases" : [
15       {
16         "name" : "<string>",
17         "collections" : [
18           {
19             "name" : "<string>",
20             "dataSources" : [
21               {
22                 "storeName" : "<string>",
23                 "path" : "<string>",
24                 "defaultFormat" : "<string>",
25                 "provenanceFieldName": "<string>",
26                 "omitAttributes": <boolean>
27               }
28             ]
29           }
30         ],
31         "maxWildcardCollections" : <integer>,
32         "views" : [ 
33           {
34             "name" : "<string>", 
35             "source" : "<string>", 
36             "pipeline" : "<string>" 
37           }
38         ] 
39       }
40     ]
41   }
42

Azure Blob Storage의 JSON 구성에는및 라는 두 개의stores databases최상위 객체가 포함되어 있습니다.

`stores`

stores 객체 연합 데이터베이스 인스턴스 와 연결된 각 데이터 저장 정의합니다. 연합 데이터베이스 인스턴스 저장 Azure Blob Storage 컨테이너 의 파일을 캡처합니다. Data Federation stores 객체 에 정의된 데이터 저장소에만 액세스 할 수 있습니다.

stores 객체 에는 다음 필드가 포함되어 있습니다.

1 "stores" : [
2     {
3       "name" : "<string>",
4       "provider" : "<string>",
5       "region" : "<string>",
6       "serviceURL" : "<string>",
7       "containerName" : "<string>",
8       "delimiter": "<string",
9       "prefix" : "<string>",
10       "public": <boolean>
11     }
12   ]

다음 표에서는 Stores 객체 의 필드에 대해 설명합니다.

필드

유형

필요성

설명

stores

배열

필수

각 객체가 연합 데이터베이스 인스턴스와 연결할 데이터 저장소를 나타내는 객체 배열입니다. 연합 데이터베이스 인스턴스 저장소는 다음을 캡처합니다.

Azure Blob Storage 컨테이너의 파일
Atlas 클러스터의 문서
공개적으로 액세스할 수 있는 URL에 저장된 파일.

Atlas Data Federation은 stores 객체에 정의된 데이터 저장소에만 액세스할 수 있습니다.

stores.[n].name

문자열

필수

연합 데이터베이스 인스턴스 저장 의 이름입니다. databases.[n].collections.[n].dataSources.[n].storeName 필드 매핑 구성의 일부로 이 값을 참조합니다.

stores.[n].provider

문자열

필수

데이터가 저장되는 위치를 정의합니다. Azure Blob Storage 컨테이너의 값은 azure이어야 합니다.

stores.[n].region

문자열

필수

데이터가 저장된 Azure 리전의 이름입니다.

stores.[n].serviceURL

문자열

필수

블롭 컨테이너가 포함된 Azure Blob Storage 계정의 URL입니다. serviceURL은 다음 형식이어야 합니다.

  https://<storage-account-name>.blob.core.windows.net/

여기서 storage-account-name은 Azure Blob Storage 계정의 이름입니다.

stores.[n].containerName

문자열

필수

파일이 포함된 Azure Blob Storage 컨테이너의 이름입니다.

stores.[n].prefix

문자열

옵션

Azure Blob Storage에서 파일을 검색할 때 접두사 Atlas Data Federation이 적용됩니다.

예를 들어 다음과 같은 구조의 Azure Blob Storage 컨테이너 metrics를 생각해 보겠습니다.

     metrics
     |--hardware
     |--software
        |--computed

연합 데이터베이스 인스턴스 저장 에 값을 추가하여 수집할 prefix databases.[n].collections.[n].dataSources.[n].path 파일의 전체 경로를 생성합니다. prefix 를 /software 로 설정하면 연합 데이터베이스 인스턴스 저장 사용하는 모든 databases 객체가 하위 경로 /software로만 제한됩니다.

이 설정을 생략하면 Atlas Data Federation은 Azure Blob Storage 컨테이너의 루트에서 모든 파일을 검색합니다.

stores.[n].delimiter

문자열

옵션

연합 데이터베이스 인스턴스 저장 에서 databases.[n].collections.[n].dataSources.[n].path 세그먼트를 구분하는 구분 기호입니다. Data Federation 구분 기호를 사용하여 계층적 디렉토리 구조의 Azure Blob Storage 컨테이너를 효율적으로 탐색합니다.

생략하는 경우 기본값은 "/"입니다.

stores.[n].public

부울

옵션

Azure Blob Storage 컨테이너의 공개 여부를 지정합니다.

true로 설정하면 Atlas Data Federation은 구성된 Azure 서비스 주체를 사용하여 Azure Blob Storage에 액세스하지 않습니다. false로 설정하면 구성된 서비스 주체에 블롭 컨테이너에 액세스할 수 있는 권한이 포함되어야 하며, 이는 해당 블롭 컨테이너가 공개된 경우에도 마찬가지입니다.

생략하는 경우 기본값은 false입니다.

`databases`

databases 객체는 stores에 정의된 각 연합 데이터베이스 인스턴스 저장소와 데이터베이스의 MongoDB 컬렉션 간의 매핑을 정의합니다.

databases 객체 에는 다음 필드가 포함되어 있습니다.

1 "databases" : [
2   {
3     "name" : "<string>",
4     "collections" : [
5       {
6         "name" : "<string>",
7         "dataSources" : [
8           {
9             "storeName" : "<string>",
10             "defaultFormat" : "<string>",
11             "path" : "<string>",
12             "provenanceFieldName": "<string>",
13             "omitAttributes": <boolean>
14           }
15         ]
16       }
17     ], 
18     "maxWildcardCollections" : <integer>,
19     "views" : [
20       {
21         "name" : "<string>",
22         "source" : "<string>",
23         "pipeline" : "<string>"
24       }
25     ]
26   }
27 ]

다음 표에서는 데이터베이스 객체 의 필드에 대해 설명합니다.

필드

유형

필요성

설명

databases

배열

필수

각 객체가 데이터베이스, 객체의 컬렉션, 그리고 선택적으로 컬렉션에 대한 모든 보기를 나타내는 객체 배열입니다. 각 데이터베이스에는 여러 개의 collections 및 views 객체가 있을 수 있습니다.

databases.[n].name

문자열

필수

Atlas Data Federation이 데이터 저장소에 포함된 데이터를 매핑하는 데이터베이스의 이름입니다.

databases.[n].collections

배열

필수

각 객체 stores 연합 데이터베이스 인스턴스 저장에 매핑되는 컬렉션 및 데이터 소스를 나타내는 객체 배열입니다.

databases.[n].collections.[n].name

문자열

필수

Atlas Data Federation 각 databases.[n].collections.[n].dataSources.[n].storeName에 포함된 데이터를 매핑하는 컬렉션의 이름입니다. 배열 의 각 객체 는 컬렉션 과 stores 배열 의 객체 간의 매핑을 나타냅니다.

컬렉션 이름에 * 를 지정하고 path 필드에 collectionName() 함수를 지정하여 파일 경로에서 컬렉션 이름을 동적으로 생성할 수 있습니다.

databases.[n].collections.[n].dataSources

배열

필수

각 객체 컬렉션 과 매핑할 stores 연합 데이터베이스 인스턴스 저장 나타내는 객체 배열입니다.

databases.[n].collections.[n].dataSources.[n].storeName

문자열

필수

<collection>에 매핑할 연합 데이터베이스 인스턴스 저장 의 이름입니다. 배열에 있는 stores name 객체의 과 일치해야 합니다.

databases.[n].collections.[n].dataSources.[n].path

문자열

필수

Atlas Data Federation 파일을 storeName <collection>에 매핑하기 전에 에서 파일을 검색하고 구문 분석하는 방법을 제어합니다. Atlas Data Federation stores.[n].prefix 를 path 에 추가하여 그 안에서 검색 할 전체 경로를 빌드 . prefix 경로의 모든 파일과 디렉토리를 캡처하려면 / 를 지정합니다.

예를 들어 다음과 같은 구조의 Azure Blob Storage 컨테이너 metrics를 생각해 보겠습니다.

 metrics
   |--hardware
     |--software
       |--computed

/의 path는 Atlas Data Federation이 metrics 디렉토리에 있는 모든 파일 및 폴더를 검색하도록 지시합니다.

/hardware의 path은 수집할 파일에 대해 해당 경로만 검색하도록 Atlas Data Federation에 지시합니다.

prefix 가 software인 경우 Atlas Data Federation /software/computed 경로에 있는 파일만 검색합니다.

경로에 * 와일드카드 문자를 추가하면 Atlas Data Federation이 경로에서 해당 지점에 있는 모든 파일과 디렉토리를 포함하도록 지시합니다. 예를 들어, /software/computed*는 /software/computed-detailed, /software/computedArchive, /software/computed/errors 등의 파일과 일치합니다.

path 다음을 포함하여 파일 이름 구문 분석을 위한 추가 구문을 지원합니다.

파일 이름에서 문서 필드를 생성합니다.
표현식을 사용하여 필드 생성을 제어합니다.
타임스탬프별로 파일 이름을 버킷에 넣기 위한 경계를 설정합니다.

자세한 내용은 S3 데이터 경로 정의를 참조하세요.

path를 지정할 때:

파티션 속성에 대한 데이터 유형을 지정합니다.
파티션 속성 유형이 구문 분석할 데이터 유형과 일치하는지 확인합니다.
delimiter에 지정된 구분자를 사용합니다.

동일한 유형의 속성을 지정하는 경우 다음 중 하나를 수행하세요.

속성 사이에 상수 구분 기호를 추가합니다.
정규 표현식을 사용하여 검색 패턴을 설명합니다. 자세히 보려면 Unsupported Parsing Functions 참조합니다.

databases.[n].collections.[n].dataSources.[n].defaultFormat

문자열

옵션

Data Federation databases.[n].collections.[n].dataSources.[n].storeName를 검색하는 동안 확장자가 없는 파일 발견하는 경우 가정하는 기본 형식입니다.

defaultFormat 필드 에는 다음 값이 유효합니다.

.json .json.gz .bson .bson.gz .avro .avro.gz .orc .tsv .tsv.gz .csv .csv.gz .parquet

자세한 내용은 지원되는 데이터 형식을 참조하세요.

databases.[n].collections.[n].dataSources.[n].provenanceFieldName

문자열

필수

결과에 있는 문서의 출처를 포함하는 필드의 이름입니다. 스토리지 구성에서 이 설정을 지정하면 Atlas Data Federation은 결과의 각 문서에 대해 다음 필드를 반환합니다.

필드 이름	설명
`provider`	연합 데이터베이스 인스턴스 저장 구성의`stores.[n].provider` 제공자( )입니다.
`region`	Azure 리전 (`stores.[n].region`).
`serviceURL`	블롭 컨테이너( )가 포함된 Azure`stores.[n].serviceURL`Blob Storage 계정의 URL .
`containerName`	Azure Blob Storage 컨테이너 의`stores.[n].containerName` 이름()
`key`	파일 의`databases.[n].collections.[n].dataSources.[n].path` 경로( )입니다. 참고: 이 설정은 Atlas UI 의 비주얼 편집기를 사용하여 구성할 수 없습니다.

databases.[n].collections.[n].dataSources.[n].omitAttributes

부울

필수

Atlas Data Federation 이 컬렉션 에 추가하는 속성(키 및 값 쌍)을 생략할지 여부를 지정하는 플래그입니다. 다음 값 중 하나를 지정할 수 있습니다.

false - 속성 추가
true - 속성 생략

생략하면 기본적으로 false가 설정되고 Atlas Data Federation이 속성을 추가합니다.

예시 들어: path/employees/{phone string}를 구성하는 /employees/949-555-0195.json 파일 생각해 보겠습니다. omitAttributes 를 false로 설정하다 Atlas Data Federation phone: 949-555-0195 속성을 문서 에 추가합니다. omitAttributes 를 true로 설정하다 Atlas Data Federation 가상 컬렉션 의 문서 에 속성을 추가하지 않습니다.

databases.[n].maxWildcardCollections

integer

옵션

데이터베이스 의 최대 와일드카드* 컬렉션 수입니다. 각 와일드카드 컬렉션 데이터 소스 하나만 있을 수 있습니다. 값은 1 에서 1000 사이일 수 있습니다. 생략하면 기본값은 100입니다.

databases.[n].views

배열

필수

각 객체가 컬렉션의 집계 파이프라인을 나타내는 객체의 배열입니다. 보기에 대해 자세히 알아보려면 보기를 참조하세요.

databases.[n].views.[n].name

문자열

필수

뷰를 식별하는 라벨입니다.

databases.[n].views.[n].source

문자열

필수

뷰에 대한 소스 컬렉션 의 이름입니다. $sql 단계를 사용하여 뷰를 만들려면 SQL 성명서 소스 컬렉션 지정하므로 이 필드 생략해야 합니다.

databases.[n].views.[n].pipeline

배열

옵션

컬렉션 에 적용 할집계 source 파이프라인 단계입니다. $sql 단계를 사용하여 뷰를 만들 수도 있습니다.

Azure Blob Storage 데이터 저장소에 대한 구성 예시

예시

데이터 센터에서 수집한 데이터를 포함하는 Azure Blob Storage 컨테이너 datacenter-alpha을(를) 가정해 보겠습니다.

|--metrics
  |--hardware

/metrics/hardware 경로는 데이터 센터 하드웨어에서 파생된 지표가 포함된 JSON 파일을 저장합니다. 여기서 각 파일 이름은 해당 파일이 다루는 24시간 기간의 UNIX 타임스탬프(밀리초)입니다.

/hardware/1564671291998.json

구성은 다음과 같습니다.

eastus2 Azure 리전의 datacenter-alpha Azure Blob Storage 컨테이너에 연합 데이터베이스 인스턴스 저장소를 정의합니다. 연합 데이터베이스 인스턴스 저장소는 metrics 디렉토리 경로에 있는 데이터 파일만 포함하도록 특별히 제한됩니다.
hardware 폴더의 파일을 MongoDB 데이터베이스 datacenter-alpha-metrics 및 컬렉션 hardware에 매핑합니다. 구성 매핑에는 파일 이름에 암시된 타임스탬프를 캡처하기 위한 구문 분석 논리가 포함되어 있습니다.

{
  "stores" : [
    {
      "name" : "datacenter",
      "provider" : "azure",
      "region" : "eastus2",
      "containerName" : "datacenter-alpha",
      "serviceURL" : "https://mystorageaccount.blob.core.windows.net/"
    }
  ],
  "databases" : [
    {
      "name" : "datacenter-alpha-metrics",
      "collections" : [
        {
          "name" : "hardware",
          "dataSources" : [
            {
              "storeName" : "datacenter",
              "path" : "/hardware/{date date}"
            }
          ]
        }
      ]
    }
  ]
}

Atlas Data Federation은 Azure Blob Storage 컨테이너 datacenter-alpha를 구문 분석하고 /metrics/hardware/ 아래의 모든 파일을 처리합니다. collections은 경로 구문 분석 구문을 사용하여 각 문서의 date 필드(ISO-8601 날짜)에 파일 이름을 매핑합니다. 일치하는 date 필드가 문서에 없으면 Atlas Data Federation이 해당 필드를 추가합니다.

연합 데이터베이스 인스턴스에 연결된 사용자는 MongoDB 쿼리 언어 및 지원되는 집계를 사용하여 datacenter-alpha-metrics.hardware 컬렉션을 통해 Azure Blob Storage 데이컨테이너의터를 분석할 수 있습니다.

돌아가기

제한 사항

배포

1	{
2	"stores" : [
3	{
4	"name" : "<string>",
5	"provider": "<string>",
6	"region" : "<string>",
7	"serviceURL" : "<string>",
8	"containerName" : "<string>",
9	"delimiter" : "<string>",
10	"prefix": "<string>",
11	"public": <boolean>
12	}
13	],
14	"databases" : [
15	{
16	"name" : "<string>",
17	"collections" : [
18	{
19	"name" : "<string>",
20	"dataSources" : [
21	{
22	"storeName" : "<string>",
23	"path" : "<string>",
24	"defaultFormat" : "<string>",
25	"provenanceFieldName": "<string>",
26	"omitAttributes": <boolean>
27	}
28	]
29	}
30	],
31	"maxWildcardCollections" : <integer>,
32	"views" : [
33	{
34	"name" : "<string>",
35	"source" : "<string>",
36	"pipeline" : "<string>"
37	}
38	]
39	}
40	]
41	}
42

1	"stores" : [
2	{
3	"name" : "<string>",
4	"provider" : "<string>",
5	"region" : "<string>",
6	"serviceURL" : "<string>",
7	"containerName" : "<string>",
8	"delimiter": "<string",
9	"prefix" : "<string>",
10	"public": <boolean>
11	}
12	]