Atlas Stream Processing 하면 Atlas 데이터베이스에서 사용되는 것과 동일한 집계 작업 을 사용하여 데이터 스트림을 읽고, 쓰기 (write) , 변환할 수 있습니다. Atlas Stream Processing 사용하면 다음을 수행할 수 있습니다.
스트리밍 데이터에서 지속적으로 작동하도록 집계 파이프라인 을 빌드합니다.
지속적인 유효성 검사 수행하여 메시지 형식이 올바른지 확인하고, 메시지 손상을 감지하고, 늦게 도착하는 데이터를 감지합니다.
문서가 파이프라인을 통과할 때 필드를 변환하고 각 문서 의 필드나 표현식을 키로 사용하여 해당 문서를 별개의 데이터베이스, Kafka 주제 또는 기타 외부 싱크로 라우팅합니다.
결과를 Atlas 컬렉션 또는 Apache Kafka 클러스터에 지속적으로 게시하여 데이터에 대한 최신 보기와 분석을 보장합니다.
Atlas Stream Processing 구성 요소는 Atlas 프로젝트에 직접 속하며 Atlas 클러스터와 독립적으로 작동합니다.
Streaming Data
스트림 하나 이상의 소스에서 발생하는 변경할 수 없는 데이터의 지속적인 흐름입니다. 데이터 스트림의 예로는 센서의 온도 또는 압력 판독값, 금융 거래 기록, 변경 데이터 캡처 이벤트 등이 있습니다.
데이터 스트림 은 Apache Kafka 주제 또는 MongoDB 변경 스트림과 같은 소스에서 시작됩니다. 그런 다음 Apache Kafka 주제, Atlas 컬렉션, 외부 함수 또는 cloud 데이터 저장소를 포함한 싱크에 처리된 데이터를 쓰기 (write) 수 있습니다.
Atlas Stream Processing 미사용 데이터베이스 의 시간과 계산상의 제약 없이 연속 데이터를 처리할 수 있는 네이티브 Stream Processing 기능을 제공합니다.
스트림 프로세서의 구조
스트림 프로세서는 개념적으로 세 단계로 나눌 수 있는 파이프라인 형태를 취합니다.
출처
스트림 프로세서는 먼저 Atlas Stream Processing 연결된 스트리밍 데이터 소스에서 문서를 수집합니다. 여기에는 Apache Kafka와 같은 브로커 시스템 또는 Atlas 읽기/ 쓰기 (write) 작업에서 생성된 것과 같은 데이터베이스 변경 스트림이 포함될 수 있습니다. 이러한 입력은 유효한 json
또는 ejson
문서여야 합니다. $source
단계에서 문서 수집하면 해당 문서에 MongoDB 집계 적용 필요에 따라 변환할 수 있습니다.
스트리밍 소스에서 데이터를 수집하는 것 외에도, Atlas Stream Processing 연결된 Atlas cluster의 데이터를 결합하기 위한 HTTPS requests 및 $lookup 작업의 데이터로 문서를 보강하는 기능도 지원합니다.
파이프라인
스트림 프로세서는 표준 MongoDB 집계 연산자 및 단계 외에 집계 파이프라인 단계 및 집계 연산자 를 활용하여 수집된 데이터를 변환하고 귀중한 인사이트를 추출합니다. Atlas Stream Processing 프로세스 할 수 없는 문서를 데드 레터 대기열에 쓰기 (write) 수 있습니다.
문서를 구조 조정하고, 필드를 추가 또는 제거하고, 컬렉션에서 정보를 조회하는 등 문서를 보강할 수 있습니다. 또한 Atlas Stream Processing 사용하면 Windows 사용하여 이벤트를 수집하고 임의의 함수를 실행할 수 있습니다.
Windows
Windows 설정하다 기간 내에 스트리밍 데이터를 집계하는 파이프라인 단계입니다. 이를 통해 데이터를 그룹 , 평균을 구하고, 최소값과 최대값을 찾고, 그렇지 않으면 스트리밍 데이터에 적용할 수 없는 다양한 기타 작업을 수행할 수 있습니다. 각 스트림 프로세서에는 하나의 창 단계만 있을 수 있습니다.
함수
Atlas Stream Processing 스트림 프로세스가 전달한 각 문서에 대해 실행 사용자 지정 JavaScript 함수 또는 Amazon Web Services Lambda 함수 에 대한 호출을 지원합니다.
싱크
수집된 데이터를 처리 후 스트림 프로세서는 데이터를 싱크에 계속 기록합니다. Atlas Stream Processing 다양한 싱크 유형에 쓰기 위한 $emit 및 $merge 단계를 제공합니다. 이러한 단계는 상호 배타적이며 각 스트림 프로세서는 싱크 단계를 하나만 가질 수 있습니다. 파이프라인 에는 동일한 싱크 연결 내의 다양한 Kafka 주제 또는 Atlas 컬렉션에 처리된 문서 쓰기 (write) 로직이 포함될 수 있습니다.
Atlas Stream Processing 리전
Atlas Stream Processing Amazon Web Services, Azure 및 Google Cloud Platform 에서 Stream Processing 인스턴스 생성을 지원합니다. 사용 가능한 리전 목록은 다음의 스트림 처리 인스턴스 섹션을 참조하세요.
Microsoft Azure 기능 참조.
Google Cloud Platform 기능 참조입니다.
스트림 프로세서는 다른 cloud 제공자 또는 다른 리전에 호스팅된 클러스터에서 읽고 쓰기 (write) 수 있습니다.
청구
청구에 대한 자세한 내용은 Atlas Stream Processing 청구 페이지를 참조하세요.
다음 단계
Atlas Stream Processing 직접 사용해 보려면 Get Started with Atlas Stream Processing참조하세요.
핵심 Atlas Stream Processing 개념에 대한 자세한 내용은 다음을 참조하세요.