개요
배치 모드로 MongoDB에서 데이터를 읽을 때 다음 속성을 구성할 수 있습니다.
참고
SparkConf을(를) 사용하여 커넥터의 읽기 구성을 설정하는 경우 각 속성 앞에 spark.mongodb.read.을(를) 접두사로 붙입니다.
속성 이름 | 설명 | ||
|---|---|---|---|
| 필수 사항입니다. | ||
| 필수 사항입니다. | ||
| 필수 사항입니다. | ||
| 읽기 작업에 추가할 주석입니다. 주석은 데이터베이스 프로파일러의 출력에 표시됩니다. | ||
| 예상 스키마 와 일치하지 않는 문서를 처리할 때 사용할 구문 분석 전략입니다. 이 옵션에는 다음 값을 사용할 수 있습니다.
| ||
|
| ||
| MongoClientFactory 구성 키입니다. 인터페이스를 구현 | ||
| 파티셔너 전체 클래스 이름입니다.
| ||
| 파티셔너 구성 접두사입니다. | ||
| 스키마 를 추론할 때 | ||
| 스키마 추론할 때 지도 유형을 활성화 할지 여부입니다. | ||
| 로 추론하기 전의 의 최소 크기입니다. | ||
| Spark 로 데이터를 전송하기 전에 컬렉션 에 적용 할 사용자 지정 집계 파이프라인 지정합니다. 문서 목록은 다음과 유사합니다. 참고: 사용자 지정 집계 파이프라인은 파티셔너 전략과 호환되어야 합니다. 예시 들어 | ||
| 집계 실행 때 디스크에 저장 하도록 허용할지 여부를 지정합니다. | ||
|
| ||
| 컬렉션 에 대한 스키마 유추할 때 사용할 알려진 필드 유형의 부분 스키마 |
파티셔너 구성
파티셔너는 Spark Connector를 사용하는 배치 읽기의 읽기 동작을 변경합니다. 데이터를 파티션으로 나누어 변환을 병렬로 실행할 수 있습니다.
이 섹션에는 다음 파티셔너에 대한 구성 정보가 포함되어 있습니다.
참고
배치 읽기 전용
데이터 스트림 처리 엔진은 단일 데이터 스트림을 생성하므로 파티셔너는 스트리밍 읽기에 영향을 주지 않습니다.
AutoBucketPartitioner 구성(기본값)
기본값 파티셔너 구성은 AutoBucketPartitioner 입니다. 데이터를 샘플링하여 파티션을 생성하고 $bucketAuto 집계 단계를 사용하여 페이지를 매깁니다. 이 구성을 사용하면 중첩된 필드를 포함하여 단일 또는 여러 필드에 걸쳐 데이터를 분할할 수 있습니다.
참고
복합 키
AutoBucketPartitioner 구성에서 복합 키를 지원 하려면 MongoDB Server 버전 7.0 이상이 필요합니다.
이 구성을 사용하려면 partitioner 구성 옵션을 com.mongodb.spark.sql.connector.read.partitioner.AutoBucketPartitioner로 설정합니다.
속성 이름 | 설명 |
|---|---|
| 분할 에 사용할 필드 목록입니다. 값은 단일 필드 이름이거나 쉼표로 구분된 필드 목록일 수 있습니다. 기본값입니다: |
| 각 파티션의 평균 크기(MB)입니다. 파티션 크기가 작을수록 더 적은 수의 문서를 포함하는 더 많은 파티션이 생성됩니다. 이 구성에서는 평균 문서 크기를 사용하여 파티션당 문서 수를 결정하므로 파티션 크기가 동일하지 않을 수 있습니다. 기본값입니다: |
| 파티션당 가져올 샘플 수입니다. 기본값입니다: |
| 컬렉션 을 분할하는 데 사용되는 모든 필드 를 포함하는 프로젝션된 필드에 사용할 필드 이름입니다. 각 문서 에 이미 기본값입니다: |
SamplePartitioner 구성
SamplePartitioner 구성은 AutoBucketPartitioner 구성과 유사하지만 $bucketAuto 집계 단계를 사용하지 않습니다. 이 구성을 사용하면 파티션 필드, 파티션 크기, 파티션당 샘플 수를 지정할 수 있습니다.
이 구성을 사용하려면 partitioner 구성 옵션을 com.mongodb.spark.sql.connector.read.partitioner.SamplePartitioner로 설정합니다.
속성 이름 | 설명 | |
|---|---|---|
| 분할에 사용할 필드로, 고유한 필드여야 합니다. 기본값입니다: | |
| 각 파티션의 크기(MB)입니다. 파티션 크기가 작을수록 더 적은 수의 문서가 포함된 파티션이 생성됩니다. 기본값입니다: | |
| 파티션당 가져올 샘플 수입니다. 가져온 총 샘플 수는 다음과 같습니다. 기본값입니다: |
예시
평균 문서 크기가 0.5MB인 640개의 컬렉션의 경우, 기본 SamplePartitioner 구성은 파티션당 128개의 문서가 있는 5개의 파티션을 만듭니다.
Spark Connector는 50개의 문서(의도된 파티션당 기본 10개)를 샘플링하고 샘플링된 문서에서 파티션 필드 범위를 선택하여 5개의 파티션을 정의합니다.
ShardedPartitioner 구성
ShardedPartitioner 구성은 샤드 구성에 따라 데이터를 자동으로 분할합니다.
이 구성을 사용하려면 partitioner 구성 옵션을 com.mongodb.spark.sql.connector.read.partitioner.ShardedPartitioner로 설정합니다.
중요
ShardedPartitioner 제한 사항
MongoDB Server v6.0 이상에서는 샤딩 작업이 모든 샤드 키 값을 포함하는 하나의 큰 초기 청크를 생성하므로 샤드 파티셔너가 비효율적입니다. MongoDB v6.0 이상에 연결된 경우 샤드 파티셔너를 사용하지 않는 것이 좋습니다.
샤드 파티셔너는 해시 샤드 키와 호환되지 않습니다.
PaginateBySizePartitioner 구성
PaginateBySizePartitioner 구성은 평균 문서 크기를 사용하여 컬렉션을 평균 크기의 청크로 분할하여 데이터에 페이지를 매깁니다.
이 구성을 사용하려면 partitioner 구성 옵션을 com.mongodb.spark.sql.connector.read.partitioner.PaginateBySizePartitioner로 설정합니다.
속성 이름 | 설명 |
|---|---|
| 분할에 사용할 필드로, 고유한 필드여야 합니다. 기본값입니다: |
| 각 파티션의 크기(MB)입니다. 더 작은 파티션 크기는 더 적은 수의 문서가 포함된 파티션을 더 많이 만듭니다. 기본값입니다: |
PaginateIntoPartitionsPartitioner Configuration
PaginateIntoPartitionsPartitioner 구성은 컬렉션의 문서 수를 허용 가능한 최대 파티션 수로 나누어 데이터에 페이지를 매깁니다.
이 구성을 사용하려면 partitioner 구성 옵션을 com.mongodb.spark.sql.connector.read.partitioner.PaginateIntoPartitionsPartitioner로 설정합니다.
속성 이름 | 설명 |
|---|---|
| 분할에 사용할 필드로, 고유한 필드여야 합니다. 기본값입니다: |
| 생성할 파티션 수입니다. 기본값입니다: |
SinglePartitionPartitioner 구성
SinglePartitionPartitioner 구성은 단일 파티션을 만듭니다.
이 구성을 사용하려면 partitioner 구성 옵션을 com.mongodb.spark.sql.connector.read.partitioner.SinglePartitionPartitioner로 설정합니다.
connection.uri에 속성 지정
SparkConf를 사용하여 이전 설정을 지정하는 경우 해당 설정을 connection.uri 설정에 포함하거나 개별적으로 나열할 수 있습니다.
다음 코드 예시에서는 connection.uri 설정의 일부로 데이터베이스, 컬렉션 및 읽기 설정을 지정하는 방법을 보여 줍니다.
spark.mongodb.read.connection.uri=mongodb://127.0.0.1/myDB.myCollection?readPreference=primaryPreferred
connection.uri를 더 짧게 유지하고 설정을 더 읽기 쉽게 만들려면 대신 개별적으로 지정할 수 있습니다.
spark.mongodb.read.connection.uri=mongodb://127.0.0.1/ spark.mongodb.read.database=myDB spark.mongodb.read.collection=myCollection
중요
connection.uri 및 해당 줄 모두에 설정을 지정하면 connection.uri 설정이 우선 적용됩니다. 예를 들어, 다음 구성에서 연결 데이터베이스는 foobar입니다. 이는 connection.uri 설정의 값이기 때문입니다.
spark.mongodb.read.connection.uri=mongodb://127.0.0.1/foobar spark.mongodb.read.database=bar