Cloud Insight로 Hadoop 모니터링
    • PDF

    Cloud Insight로 Hadoop 모니터링

    • PDF

    Article Summary

    네이버 클라우드 플랫폼 Cloud Insight 서비스를 통해 Hadoop의 성능 및 운영 지표를 모니터링하고, 장애가 발생했을 때 신속하게 확인하여 대처할 수 있습니다.

    사전 작업

    1. Cloud Hadoop 클러스터를 생성해 주십시오.
      • Cloud Hadoop 클러스터 생성에 대한 자세한 내용은 Cloud Hadoop 시작 가이드를 참고해 주십시오.
    2. Cloud Insight 이용을 신청해 주십시오.

    대시보드 구성

    Cloud Hadoop 모니터링을 위해 Cloud Insight 콘솔 화면에서 대시보드를 생성하고 위젯을 추가할 수 있습니다.
    Cloud Insight에서 대시보드를 생성하고 위젯을 추가하는 방법은 다음과 같습니다.

    1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.
    2. [대시보드 생성] 버튼을 클릭해 주십시오.
    3. 대시보드의 이름과 설명을 입력한 후 [생성] 버튼을 클릭해 주십시오.
      hadoop-vpc-use-ex12_create1_vpc_ko.png
    4. [위젯 추가] 버튼을 클릭해 주십시오.
    5. 위젯의 이름을 입력한 후 위젯 종류를 선택하고 [다음] 버튼을 클릭해 주십시오.
      • 예시에서는 Time Series 위젯을 사용하여 설명합니다.
        hadoop-vpc-use-ex12_create3_vpc_ko.png
    6. 아래와 같이 위젯 설정을 입력한 후 [다음] 버튼을 클릭해 주십시오.
    • [CPU] 탭의 CPU/used_rto, CPU/user_rto 체크박스를 클릭한 후, [선택 항목 추가] 버튼을 클릭해 주십시오.
      hadoop-vpc-use-ex12_create4_vpc_ko.png
      • Product Type: Cloud Hadoop(VPC)
      • Target: 보유 리소스 전체 선택 후 모니터링할 클러스터 선택
        (그룹 선택 시 Target Group 설정 참고)
      • Metric: 전체 메트릭 선택 후 모니터링할 항목을 선택하고 [선택 항목 추가] 버튼 클릭
        (템플릿 선택 시 Rule Template 설정 참고)
      • 설정 데이터 목록: 선택한 모니터링 항목의 Dimension(속성), Interval(집계 주기), Aggregation(집계 함수)
    1. 설정한 위젯 내용을 확인한 후 [생성] 버튼을 클릭해 주십시오.
      hadoop-vpc-use-ex12_create6_vpc_ko.png
      • 다음과 같이 대시보드에 위젯이 추가됩니다. 추가된 위젯을 통해 Cloud Hadoop 클러스터를 모니터링할 수 있습니다.
        hadoop-vpc-use-ex12_create7_vpc_ko.png

    그룹 및 템플릿 설정

    모니터링 설정 및 위젯을 수월하게 관리할 수 있도록 특정한 모니터링 대상을 그룹으로 묶거나 특정한 모니터링 항목(Metric)을 템플릿으로 저장할 수 있습니다.

    Target Group 설정

    Target Group을 생성하여 특정한 모니터링 대상을 그룹으로 묶는 방법은 다음과 같습니다.

    1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.
    2. Configuration > Template 메뉴를 차례대로 클릭해 주십시오.
    3. [Target Group] 탭을 클릭한 후 [Target Group 생성] 버튼을 클릭해 주십시오.
    4. 아래와 같이 그룹 설정을 입력한 후 [생성] 버튼을 클릭해 주십시오.
      hadoop-vpc-use-ex12_targetGroup2_vpc_ko.png
    • Product Type: Cloud Hadoop(VPC)
    • 그룹 이름, 그룹 설명: 그룹 이름과 설명 입력
    • 선택 가능한 감시 대상: 그룹에 포함할 모니터링 대상을 모두 선택한 후 icon_hadoop-vpc-use-ex12_addSelected_vpc 클릭

    Rule Template 설정

    Rule Template을 설정하여 특정한 모니터링 항목을 템플릿으로 저장하는 방법은 다음과 같습니다.

    1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.

    2. Configuration > Template 메뉴를 차례대로 클릭해 주십시오.

    3. [Rule Template] 탭을 클릭한 후 [Rule Template 생성] 버튼을 클릭해 주십시오.

    4. 다음와 같이 템플릿 설정을 입력한 후 [다음] 버튼을 클릭해 주십시오.
      hadoop-vpc-use-ex12_template2_vpc_ko.png

      • Product Type: Cloud Hadoop(VPC)
      • 템플릿 이름, 설명: 템플릿 이름과 설명을 입력
      • 각 분류 탭에서 템플릿에 포함할 모니터링 항목(Metric)을 찾아 선택
    5. 다음과 같이 각 모니터링 항목의 모니터링 조건을 입력한 후 [저장] 버튼을 클릭해 주십시오.
      hadoop-vpc-use-ex12_template3_vpc_ko.png

      • Dimension: 모니터링 항목의 속성
      • Level: 이벤트 발생 시 레벨
      • Condition: 이벤트 발생 조건
      • Method: 모니터링 항목의 집계 함수
      • Duration: 지속 시간
      참고

      Cloud Hadoop(VPC)의 CPU/user_rto(cpu_idx: 1)의 값이 0으로 1분간 지속될 경우 Info 레벨의 이벤트가 발생하도록 설정하는 예시는 아래와 같습니다.
      hadoop-vpc-use12_25_ko

    이벤트 설정

    모니터링 대상과 항목을 선택하고, 모니터링 조건 및 통보 액션을 설정하여 이벤트를 생성하고, 생성한 이벤트의 현황을 확인할 수 있습니다.

    참고

    이 가이드에서는 이벤트의 통보 액션으로 알림 메시지 발송을 사용하는 방법을 설명합니다. Integration, Cloud Functions, Auto Scaling 정책 등 다른 통보 액션에 대한 설명은 Cloud Insight 사용 가이드를 참고해 주십시오.

    이벤트를 설정하는 방법은 다음과 같습니다.

    1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.
    2. Configuration > Event Rule 메뉴를 차례대로 클릭해 주십시오.
    3. [Event Rules 생성] 버튼을 클릭해 주십시오.
    4. 감시 상품 선택 항목에서 Cloud Hadoop(VPC) 를 선택한 후 [다음] 버튼을 클릭해 주십시오.
      hadoop-vpc-use-ex12_eventRule2_vpc_ko.png
    5. 개별 모니터링 대상 또는 모니터링 그룹을 선택한 후 [다음] 버튼을 클릭해 주십시오.
    6. 개별 모니터링 항목 또는 모니터링 템플릿을 선택한 후 [다음] 버튼을 클릭해 주십시오.
    7. 알림 메시지 발송 탭에서 통보 대상자 그룹을 선택한 후 [다음] 버튼을 클릭해 주십시오.
    8. 설정한 이벤트 내용을 확인한 후 [생성] 버튼을 클릭해 주십시오.
      hadoop-vpc-use-ex12_eventRule6_vpc_ko.png

    이벤트 현황 확인

    생성한 이벤트의 현황을 확인하는 방법은 다음과 같습니다.

    1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.
    2. Event 메뉴를 클릭해 주십시오. 이벤트 룰에 의해 이벤트가 발생한 경우, 발생된 이벤트의 상세 내용을 아래과 같이 확인할 수 있습니다.
      hadoop-vpc-use-ex12_Event_vpc_ko.png

    통보 대상자 그룹 생성

    이벤트 알림 메시지를 발생할 통보 대상자 그룹을 생성하고 대상자를 추가하는 방법은 다음과 같습니다.

    1. 네이버 클라우드 플랫폼 콘솔의 VPC 환경에서 Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.
    2. Notification Recipient 메뉴를 차례대로 클릭해 주십시오.
    3. 대상자그룹 목록의 chadoop-vpc-use-plusicon_ko 버튼을 클릭하고 생성할 그룹 이름을 입력한 후 chadoop-vpc-use-checkicon_ko 버튼을 클릭해 주십시오.
      hadoop-vpc-use-ex12_noti1_vpc_ko.png
    4. 대상자그룹 목록의 전체 대상자를 클릭해 주십시오.
    5. 생성한 그룹에 할당할 대상자를 선택한 후 [할당] 버튼을 클릭해 주십시오.
      • 새로운 대상자를 추가하려면 [대상자 추가] 버튼을 클릭한 후 Cloud Insight 사용 가이드를 참고하여 대상자를 추가해 주십시오.
        hadoop-vpc-use-ex12_noti2_vpc_ko.png
    6. 추가할 통보 대상자의 정보를 입력하고 본인인증을 완료한 후 [등록] 버튼을 클릭해 주십시오.

    Cloud Hadoop Metric

    생성된 모든 클러스터에 대해서 아래의 지표를 모니터링 할 수 있습니다. Cloud Insight는 지표에 대한 데이터를 1분 간격으로 수집합니다.

    참고

    클러스터의 HDFS, YARN 이 정상적으로 동작하지 않을 경우 지표는 수집되지 않고, 대시보드에서도 확인할 수 없습니다.

    지표타입단위설명
    active_nodesINTEGERnumnumber of nodes presently running MapReduce tasks or jobs
    allocated_containerINTEGERnumnumber of resource containers allocated by the ResourceManager
    allocated_mbINTEGERMBamount of memory allocated to the cluster
    allocated_v_coresINTEGERnumnumber of core nodes working
    apps_completedINTEGERnumnumber of applications submitted to YARN that have completed
    apps_failedINTEGERnumnumber of applications submitted to YARN that have failed to complete
    apps_killedINTEGERnumnumber of applications submitted to YARN that have been killed
    apps_pendingINTEGERnumnumber of applications submitted to YARN that are in a pending state
    apps_runningINTEGERnumnumber of applications submitted to YARN that are running
    apps_submittedINTEGERnumnumber of applications submitted to YARN
    available_mbINTEGERMBamount of memory available to be allocated
    capacity_remaining_gbINTEGERGBamount of remaining HDFS disk capacity
    corrupt_blocksINTEGERnumnumber of blocks that HDFS reports as corrupted
    decommissioned_nodesINTEGERnumnumber of nodes allocated to MapReduce applications that have been marked in a DECOMMISSIONED state
    hdfs_bytes_readINTEGERBytesnumber of bytes read from HDFS
    hdfs_bytes_writtenINTEGERBytesnumber of bytes written to HDFS
    hdfs_utilizationFLOAT%percentage of HDFS storage currently used
    lost_nodesINTEGERnumnumber of nodes allocated to MapReduce that have been marked in a LOST state
    missing_blocksINTEGERnumnumber of blocks in which HDFS has no replicas
    num_live_data_nodesINTEGERnumnumber of data nodes that are receiving work from Hadoop
    pending_containersINTEGERnumnumber of containers in the queue that have not yet been allocated
    pending_deletion_blocksINTEGERnumnumber of blocks marked for deletion
    pending_replication_blocksINTEGERnumstatus of block replication: blocks being replicated, age of replication requests, and unsuccessful replication requests
    pending_v_coresINTEGERnumnumber of core nodes waiting to be assigned
    rebooted_nodesINTEGERnumnumber of nodes available to MapReduce that have been rebooted and marked in a REBOOTED state
    reserved_containersINTEGERnumnumber of containers reserved
    reserved_mbINTEGERMBamount of memory reserved
    total_loadINTEGERnumtotal number of concurrent data transfers
    total_mbINTEGERMBtotal amount of memory in the cluster
    total_nodesINTEGERnumnumber of nodes presently available to MapReduce jobs
    under_replicated_blocksINTEGERnumnumber of blocks that need to be replicated one or more times
    unhealthy_nodesINTEGERnumnumber of nodes available to MapReduce jobs marked in an UNHEALTHY state
    yarn_memory_available_percentageFLOAT%percentage of remaining memory available to YARN (= available_mb / total_mb)

    이 문서가 도움이 되었습니까?

    Changing your password will log you out immediately. Use the new password to log back in.
    First name must have atleast 2 characters. Numbers and special characters are not allowed.
    Last name must have atleast 1 characters. Numbers and special characters are not allowed.
    Enter a valid email
    Enter a valid password
    Your profile has been successfully updated.