Ops Manager 에서 managed 배포에 대한 백업 및 복원 작업은 에이전트 연결 문제, 디스크 공간 제약 또는 oplog 불일치 등 다양한 이유로 실패할 수 있습니다.
이 페이지에서는 백업 및 복원 실패를 확인하는 방법을 설명하고 일반적인 원인 및 해결 방법을 간략하게 설명하며 지원 에 문의하기 전에 수집해야 할 사항에 대한 지침 제공합니다. 아래 단계를 완료한 후에도 문제가 지속되면 기술 지원팀 문의 .
전제 조건 검사
백업 또는 복원 실패의 근본 원인을 조사하기 전에 Ops Manager UI 또는 API 에서 관련 상태 표시기를 확인하여 실패가 발생했는지 확인하세요.
백업 실패 확인
다음 방법을 사용하여 백업 작업 또는 스냅샷 실패했는지 확인합니다.
스냅샷 상태 확인
스냅샷 이 실패했는지 확인하려면 다음을 수행합니다.
스냅샷 옆의 JSON 를 클릭하여 다음을 포함한 추가 필드를 볼 수도 있습니다.
statuscreatedDatecompletedDatetotalDurationtransferSpeed
이러한 필드는 백업 성공적으로 완료되었는지 여부를 확인하는 데 도움이 됩니다.
모든 스냅샷 상태에 대한 설명은 백업 개요를 참조하세요.
백업 작업 확인 페이지
진행 중인 백업 작업에 문제가 있는지 확인하려면 다음을 수행합니다.
자세한 내용은 작업을 참조하세요.
백업 로그 확인
백업 작업의 오류 메시지를 검토 하려면 다음을 수행합니다.
로그에는 오류 메시지가 시간별로 그룹화되어 표시되므로 백업 작업 실패한 이유를 진단하는 데 도움이 될 수 있습니다.
경고 확인
Ops Manager 다음을 포함하여 백업 작업의 실패 또는 문제를 나타내는 경고를 생성합니다.
"백업이 높은 재시도 횟수에 도달했습니다."
"백업이 예기치 않은 상태 에 있습니다."
"복제본 설정하다 에 늦은 스냅샷 있습니다"
백업 관련 경고 조건의 전체 목록은 경고 조건을 참조하세요.
API 에 불완전한 스냅샷 쿼리하기
완료되지 않은 스냅샷을 조회 하려면 completed=false 쿼리 매개변수를 사용하여 Ops Manager API 쿼리 .
curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \ --header "Accept: application/json" \ "https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/snapshots?completed=false"
응답에는 각 객체 스냅샷 나타내는 results 배열 포함됩니다. complete 필드 스냅샷 이 성공적으로 완료되었는지 여부를 나타냅니다.
참고
스냅샷 API 명명된 실패 상태를 제공하지 않습니다. complete: false 이(가) 있는 스냅샷 아직 진행 중이거나 실패했을 수 있습니다.
복원 실패 확인
다음 방법을 사용하여 복원 작업 실패했는지 확인합니다.
복원 페이지 확인
Ops Manager UI 에서 복원 작업의 상태를 보려면 다음 단계를 따르세요.
Restores 페이지에는 마지막 300 복원 작업의 표가 표시됩니다. Status 열을 확인하여 다음 상태의 작업을 식별합니다.
FAILEDCANCELEDIN_PROGRESSFINISHED
특정 복원 작업에 대한 자세한 내용을 보려면 행을 클릭합니다.
자세한 내용은 복원을 참조하세요.
실패한 복원 작업에 대한 API 쿼리
프로그래밍 방식으로 복원 작업을 조회 하려면 Ops Manager API 쿼리 .
curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \ --header "Accept: application/json" \ "https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/restoreJobs"
응답에는 각 객체 복원 작업 나타내는 results 배열 포함됩니다. statusName 필드 작업 상태 나타냅니다. 가능한 값은 다음과 같습니다.
FINISHEDIN_PROGRESSBROKENKILLED
statusName 가 BROKEN 또는 KILLED 인 복원 작업은 실패한 것으로 간주됩니다.
jq을(를) 사용하여 실패한 작업을 필터하다 하려면 다음을 수행합니다.
curl --user "{PUBLIC-KEY}:{PRIVATE-KEY}" --digest \ --header "Accept: application/json" \ "https://{OPSMANAGER-HOST}:{PORT}/api/public/v1.0/groups/{PROJECT-ID}/clusters/{CLUSTER-ID}/restoreJobs" \ | jq '.results[] | select(.statusName=="BROKEN" or .statusName=="KILLED")'
일반적인 문제 및 해결 방법
다음 섹션에서는 백업 및 복원 실패의 일반적인 원인과 해결 방법에 대해 설명합니다.
백업 실패
다음 섹션에서는 백업 실패의 일반적인 원인과 해결 방법에 대해 설명합니다.
디스크 공간 부족
복제본 세트 멤버 노드에 디스크 여유 공간이 부족하면 클러스터 비정상 상태 되어 백업 실패를 초래할 수 있습니다.
이 문제를 해결하려면 영향을 받는 노드의 dbPath 에서 사용 가능한 저장 용량 늘리세요. 디스크 사용량을 정기적으로 모니터링하여 재발을 방지합니다.
MongoDB Agent 다운되었거나 불안정한 경우
백업 프로세스 지속적으로 실행 MongoDB Agent 에 따라 달라집니다. 에이전트 중지되거나 계속 다시 시작되면 백업이 실패합니다.
증상은 다음과 같습니다.
'백업 oplog 가 뒤처짐'과 같은 경고
한 시간 동안 oplog 슬라이스가 수신되지 않았습니다.
이 문제를 해결하려면 다음을 수행합니다.
자세한 내용은 백업 Oplog 문제 해결을 참조하세요.
에이전트가 복제본 세트에 연결할 수 없음
백업 에이전트 복제본 세트 에 대한 연결을 유지해야 합니다. 실패는 네트워크 연결 문제, 사용할 수 없는 MongoDB 노드 또는 인증 실패로 인해 발생할 수 있습니다.
에이전트 로그의 증상은 다음과 같습니다.
server selection timeoutAuthentication failed
이 문제를 해결하려면 다음을 수행합니다.
자세한 내용은 백업 Oplog 문제 해결을 참조하세요.
Oplog 문제
oplog 너무 작거나 백업 에이전트 쓰기 (write) 활동을 따라잡을 수 없는 경우 백업 뒤쳐져 결국 실패합니다.
증상에는 다음과 같은 경고가 포함됩니다.
"백업에는 재동기화가 필요합니다"
"Backup oplog is 뒤에"
이 문제를 해결하려면 다음을 수행합니다.
oplog window 충분한 기록을 포함하도록 oplog 크기를 늘립니다(최소 24 시간 권장).
백업 너무 뒤쳐진 경우 백업 다시 동기화합니다.
백업 작업이 백업 디먼 에 바인딩하지 못함
백업 작업 백업된 복제본 세트 의 로컬 복사본을 저장 수 있는 충분한 공간이 있는 백업 디먼 필요합니다. 데몬 충분한 공간이 없으면 작업 바인딩되지 않습니다. 이 문제를 해결하려면 백업 디먼 추가하여 용량 늘리세요.
이 문제는 복제본 세트 에서 프라이머리 감지되지 않은 경우에도 발생할 수 있습니다. 이 문제를 해결하려면 백업 다시 시도하기 전에 복제본 세트 정상이고 프라이머리 가 있는지 확인하세요.
자세한 내용은 백업 FAQ 참조하세요.
복원 실패
다음 섹션에서는 복원 실패의 일반적인 원인과 해결 방법에 대해 설명합니다.
샤드 클러스터에서 단일 샤드 복원 시도
샤딩된 클러스터 복원 때는 모든 샤드를 복원 해야 합니다. 단일 샤드 격리 하여 복원 하려고 하면 복원 프로세스 실패합니다.
자세한 내용은 복원 제한을 참조하세요.
백업과 대상 데이터베이스 간의 설정 불일치
소스 백업 과 대상 데이터베이스 의 특정 저장 설정이 일치하지 않으면 자동 복원 실패할 수 있습니다. 복원 시도가 실패하면 Ops Manager 일치하지 않는 설정을 표시합니다.
일치해야 하는 설정 목록은 자동 복원 실패의 잠재적 원인을 참조하세요.
특정 시점 복원 중 Oplog 격차
특정 시점 복원에는 지속적인 oplog 기록이 필요합니다. oplog 에 공백이 있으면 복원 실패합니다.
oplog 격차의 일반적인 원인은 다음과 같습니다.
백업 에이전트 oplog 테일링을 중지했습니다.
에이전트 처리하기 전에 oplog 롤오버되었습니다.
클러스터 토폴로지 변경이 발생했습니다.
기능 호환성 버전(FCV)이 변경되었습니다.
MongoDB 버전 변경 사항 전체에 걸쳐 복원 시도했습니다.
이 문제를 해결하려면 다음을 수행합니다.
oplog 격차 이전에 생성된 유효한 최신 스냅샷 에서 복원하거나
새 스냅샷 생성될 때까지 기다린 다음 복원 다시 수행합니다.
복원 호스트의 디스크 공간 부족
대상 호스팅하다 스냅샷 파일 및 복원된 데이터베이스 위한 저장 충분하지 않으면 복원 실패합니다.
이 문제를 해결하려면 다음을 수행합니다.
명령에 대한 자세한 내용은 를 dbStats dbStats 참조하세요.
추가 지원을 위해 수집할 진단
문제가 지속되면 기술 지원에 문의하기 전에 다음 정보를 수집합니다.
Ops Manager UI 또는 API 의 오류 메시지 완료
백업 에이전트 로그 파일
MongoDB 서버 버전
Ops Manager 버전
관련 MongoDB 서버 로그
복원 페이지 또는 API 복원 작업 쿼리 의 출력