Cloud Insight로 Hadoop 모니터링

Prev Next

네이버 클라우드 플랫폼 Cloud Insight 서비스를 통해 Hadoop의 성능 및 운영 지표를 모니터링하고, 장애가 발생했을 때 신속하게 확인하여 대처할 수 있습니다.

사전 작업

  1. Cloud Hadoop 클러스터를 생성해 주십시오.
    • Cloud Hadoop 클러스터 생성에 대한 자세한 내용은 Cloud Hadoop 시작 가이드를 참고해 주십시오.
  2. Cloud Insight 이용을 신청해 주십시오.

대시보드 구성

Cloud Hadoop 모니터링을 위해 Cloud Insight 콘솔 화면에서 대시보드를 생성하고 위젯을 추가할 수 있습니다.
Cloud Insight에서 대시보드를 생성하고 위젯을 추가하는 방법은 다음과 같습니다.

  1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.
  2. [대시보드 생성] 버튼을 클릭해 주십시오.
  3. 대시보드의 이름과 설명을 입력한 후 [생성] 버튼을 클릭해 주십시오.
    hadoop-vpc-use-ex12_create1_vpc_ko.png
  4. [위젯 추가] 버튼을 클릭해 주십시오.
  5. 위젯의 이름을 입력한 후 위젯 종류를 선택하고 [다음] 버튼을 클릭해 주십시오.
    • 예시에서는 Time Series 위젯을 사용하여 설명합니다.
      hadoop-vpc-use-ex12_create3_vpc_ko.png
  6. 아래와 같이 위젯 설정을 입력한 후 [다음] 버튼을 클릭해 주십시오.
  • [CPU] 탭의 CPU/used_rto, CPU/user_rto 체크박스를 클릭한 후, [선택 항목 추가] 버튼을 클릭해 주십시오.
    hadoop-vpc-use-ex12_create4_vpc_ko.png
    • Product Type: Cloud Hadoop(VPC)
    • Target: 보유 리소스 전체 선택 후 모니터링할 클러스터 선택
      (그룹 선택 시 Target Group 설정 참고)
    • Metric: 전체 메트릭 선택 후 모니터링할 항목을 선택하고 [선택 항목 추가] 버튼 클릭
      (템플릿 선택 시 Rule Template 설정 참고)
    • 설정 데이터 목록: 선택한 모니터링 항목의 Dimension(속성), Interval(집계 주기), Aggregation(집계 함수)
  1. 설정한 위젯 내용을 확인한 후 [생성] 버튼을 클릭해 주십시오.
    hadoop-vpc-use-ex12_create6_vpc_ko.png
    • 다음과 같이 대시보드에 위젯이 추가됩니다. 추가된 위젯을 통해 Cloud Hadoop 클러스터를 모니터링할 수 있습니다.
      hadoop-vpc-use-ex12_create7_vpc_ko.png

그룹 및 템플릿 설정

모니터링 설정 및 위젯을 수월하게 관리할 수 있도록 특정한 모니터링 대상을 그룹으로 묶거나 특정한 모니터링 항목(Metric)을 템플릿으로 저장할 수 있습니다.

Target Group 설정

Target Group을 생성하여 특정한 모니터링 대상을 그룹으로 묶는 방법은 다음과 같습니다.

  1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.
  2. Configuration > Template 메뉴를 차례대로 클릭해 주십시오.
  3. [Target Group] 탭을 클릭한 후 [Target Group 생성] 버튼을 클릭해 주십시오.
  4. 아래와 같이 그룹 설정을 입력한 후 [생성] 버튼을 클릭해 주십시오.
    hadoop-vpc-use-ex12_targetGroup2_vpc_ko.png
  • Product Type: Cloud Hadoop(VPC)
  • 그룹 이름, 그룹 설명: 그룹 이름과 설명 입력
  • 선택 가능한 감시 대상: 그룹에 포함할 모니터링 대상을 모두 선택한 후 icon_hadoop-vpc-use-ex12_addSelected_vpc 클릭

Rule Template 설정

Rule Template을 설정하여 특정한 모니터링 항목을 템플릿으로 저장하는 방법은 다음과 같습니다.

  1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.

  2. Configuration > Template 메뉴를 차례대로 클릭해 주십시오.

  3. [Rule Template] 탭을 클릭한 후 [Rule Template 생성] 버튼을 클릭해 주십시오.

  4. 다음와 같이 템플릿 설정을 입력한 후 [다음] 버튼을 클릭해 주십시오.
    hadoop-vpc-use-ex12_template2_vpc_ko.png

    • Product Type: Cloud Hadoop(VPC)
    • 템플릿 이름, 설명: 템플릿 이름과 설명을 입력
    • 각 분류 탭에서 템플릿에 포함할 모니터링 항목(Metric)을 찾아 선택
  5. 다음과 같이 각 모니터링 항목의 모니터링 조건을 입력한 후 [저장] 버튼을 클릭해 주십시오.
    hadoop-vpc-use-ex12_template3_vpc_ko.png

    • Dimension: 모니터링 항목의 속성
    • Level: 이벤트 발생 시 레벨
    • Condition: 이벤트 발생 조건
    • Method: 모니터링 항목의 집계 함수
    • Duration: 지속 시간
    참고

    Cloud Hadoop(VPC)의 CPU/user_rto(cpu_idx: 1)의 값이 0으로 1분간 지속될 경우 Info 레벨의 이벤트가 발생하도록 설정하는 예시는 아래와 같습니다.
    hadoop-vpc-use12_25_ko

이벤트 설정

모니터링 대상과 항목을 선택하고, 모니터링 조건 및 통보 액션을 설정하여 이벤트를 생성하고, 생성한 이벤트의 현황을 확인할 수 있습니다.

참고

이 가이드에서는 이벤트의 통보 액션으로 알림 메시지 발송을 사용하는 방법을 설명합니다. Integration, Cloud Functions, Auto Scaling 정책 등 다른 통보 액션에 대한 설명은 Cloud Insight 사용 가이드를 참고해 주십시오.

이벤트를 설정하는 방법은 다음과 같습니다.

  1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.
  2. Configuration > Event Rule 메뉴를 차례대로 클릭해 주십시오.
  3. [Event Rules 생성] 버튼을 클릭해 주십시오.
  4. 감시 상품 선택 항목에서 Cloud Hadoop(VPC) 를 선택한 후 [다음] 버튼을 클릭해 주십시오.
    hadoop-vpc-use-ex12_eventRule2_vpc_ko.png
  5. 개별 모니터링 대상 또는 모니터링 그룹을 선택한 후 [다음] 버튼을 클릭해 주십시오.
  6. 개별 모니터링 항목 또는 모니터링 템플릿을 선택한 후 [다음] 버튼을 클릭해 주십시오.
  7. 알림 메시지 발송 탭에서 통보 대상자 그룹을 선택한 후 [다음] 버튼을 클릭해 주십시오.
  8. 설정한 이벤트 내용을 확인한 후 [생성] 버튼을 클릭해 주십시오.
    hadoop-vpc-use-ex12_eventRule6_vpc_ko.png

이벤트 현황 확인

생성한 이벤트의 현황을 확인하는 방법은 다음과 같습니다.

  1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.
  2. Event 메뉴를 클릭해 주십시오. 이벤트 룰에 의해 이벤트가 발생한 경우, 발생된 이벤트의 상세 내용을 아래과 같이 확인할 수 있습니다.
    hadoop-vpc-use-ex12_Event_vpc_ko.png

통보 대상자 그룹 생성

이벤트 알림 메시지를 발생할 통보 대상자 그룹을 생성하고 대상자를 추가하는 방법은 다음과 같습니다.

  1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.
  2. Notification Recipient 메뉴를 차례대로 클릭해 주십시오.
  3. 대상자그룹 목록의 chadoop-vpc-use-plusicon_ko 버튼을 클릭하고 생성할 그룹 이름을 입력한 후 chadoop-vpc-use-checkicon_ko 버튼을 클릭해 주십시오.
    hadoop-vpc-use-ex12_noti1_vpc_ko.png
  4. 대상자그룹 목록의 전체 대상자를 클릭해 주십시오.
  5. 생성한 그룹에 할당할 대상자를 선택한 후 [할당] 버튼을 클릭해 주십시오.
    • 새로운 대상자를 추가하려면 [대상자 추가] 버튼을 클릭한 후 Cloud Insight 사용 가이드를 참고하여 대상자를 추가해 주십시오.
      hadoop-vpc-use-ex12_noti2_vpc_ko.png
  6. 추가할 통보 대상자의 정보를 입력하고 본인인증을 완료한 후 [등록] 버튼을 클릭해 주십시오.

Cloud Hadoop Metric

생성된 모든 클러스터에 대해서 아래의 지표를 모니터링 할 수 있습니다. Cloud Insight는 지표에 대한 데이터를 1분 간격으로 수집합니다.

참고

클러스터의 HDFS, YARN 이 정상적으로 동작하지 않을 경우 지표는 수집되지 않고, 대시보드에서도 확인할 수 없습니다.

지표 타입 단위 설명
active_nodes INTEGER num number of nodes presently running MapReduce tasks or jobs
allocated_container INTEGER num number of resource containers allocated by the ResourceManager
allocated_mb INTEGER MB amount of memory allocated to the cluster
allocated_v_cores INTEGER num number of core nodes working
apps_completed INTEGER num number of applications submitted to YARN that have completed
apps_failed INTEGER num number of applications submitted to YARN that have failed to complete
apps_killed INTEGER num number of applications submitted to YARN that have been killed
apps_pending INTEGER num number of applications submitted to YARN that are in a pending state
apps_running INTEGER num number of applications submitted to YARN that are running
apps_submitted INTEGER num number of applications submitted to YARN
available_mb INTEGER MB amount of memory available to be allocated
capacity_remaining_gb INTEGER GB amount of remaining HDFS disk capacity
corrupt_blocks INTEGER num number of blocks that HDFS reports as corrupted
decommissioned_nodes INTEGER num number of nodes allocated to MapReduce applications that have been marked in a DECOMMISSIONED state
hdfs_bytes_read INTEGER Bytes number of bytes read from HDFS
hdfs_bytes_written INTEGER Bytes number of bytes written to HDFS
hdfs_utilization FLOAT % percentage of HDFS storage currently used
lost_nodes INTEGER num number of nodes allocated to MapReduce that have been marked in a LOST state
missing_blocks INTEGER num number of blocks in which HDFS has no replicas
num_live_data_nodes INTEGER num number of data nodes that are receiving work from Hadoop
pending_containers INTEGER num number of containers in the queue that have not yet been allocated
pending_deletion_blocks INTEGER num number of blocks marked for deletion
pending_replication_blocks INTEGER num status of block replication: blocks being replicated, age of replication requests, and unsuccessful replication requests
pending_v_cores INTEGER num number of core nodes waiting to be assigned
rebooted_nodes INTEGER num number of nodes available to MapReduce that have been rebooted and marked in a REBOOTED state
reserved_containers INTEGER num number of containers reserved
reserved_mb INTEGER MB amount of memory reserved
total_load INTEGER num total number of concurrent data transfers
total_mb INTEGER MB total amount of memory in the cluster
total_nodes INTEGER num number of nodes presently available to MapReduce jobs
under_replicated_blocks INTEGER num number of blocks that need to be replicated one or more times
unhealthy_nodes INTEGER num number of nodes available to MapReduce jobs marked in an UNHEALTHY state
yarn_memory_available_percentage FLOAT % percentage of remaining memory available to YARN (= available_mb / total_mb)