Cloud Insight로 Hadoop 모니터링

네이버 클라우드 플랫폼 Cloud Insight 서비스를 통해 Hadoop의 성능 및 운영 지표를 모니터링하고, 장애가 발생했을 때 신속하게 확인하여 대처할 수 있습니다.

사전 작업

Cloud Hadoop 클러스터를 생성해 주십시오.
- Cloud Hadoop 클러스터 생성에 대한 자세한 내용은 Cloud Hadoop 시작 가이드를 참고해 주십시오.
Cloud Insight 이용을 신청해 주십시오.
- Cloud Insight 이용 신청에 대한 자세한 내용은 Cloud Insight 사용 가이드를 참고해 주십시오.

대시보드 구성

Cloud Hadoop 모니터링을 위해 Cloud Insight 콘솔 화면에서 대시보드를 생성하고 위젯을 추가할 수 있습니다.
Cloud Insight에서 대시보드를 생성하고 위젯을 추가하는 방법은 다음과 같습니다.

네이버 클라우드 플랫폼 콘솔에서 Menu > Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.
[대시보드 생성] 버튼을 클릭해 주십시오.
대시보드의 이름과 설명을 입력한 후 [생성] 버튼을 클릭해 주십시오.
[위젯 추가] 버튼을 클릭해 주십시오.
위젯의 이름을 입력한 후 위젯 종류를 선택하고 [다음] 버튼을 클릭해 주십시오.
- 예시에서는 Time Series 위젯을 사용하여 설명합니다.
아래와 같이 위젯 설정을 입력한 후 [다음] 버튼을 클릭해 주십시오.

[CPU] 탭의 CPU/used_rto, CPU/user_rto 체크박스를 클릭한 후, [선택 항목 추가] 버튼을 클릭해 주십시오.
- Product Type: Cloud Hadoop(VPC)
- Target: 보유 리소스 전체 선택 후 모니터링할 클러스터 선택
  (그룹 선택 시 Target Group 설정 참고)
- Metric: 전체 메트릭 선택 후 모니터링할 항목을 선택하고 [선택 항목 추가] 버튼 클릭
  (템플릿 선택 시 Rule Template 설정 참고)
- 설정 데이터 목록: 선택한 모니터링 항목의 Dimension(속성), Interval(집계 주기), Aggregation(집계 함수)

설정한 위젯 내용을 확인한 후 [생성] 버튼을 클릭해 주십시오.
- 다음과 같이 대시보드에 위젯이 추가됩니다. 추가된 위젯을 통해 Cloud Hadoop 클러스터를 모니터링할 수 있습니다.

그룹 및 템플릿 설정

모니터링 설정 및 위젯을 수월하게 관리할 수 있도록 특정한 모니터링 대상을 그룹으로 묶거나 특정한 모니터링 항목(Metric)을 템플릿으로 저장할 수 있습니다.

Target Group 설정

Target Group을 생성하여 특정한 모니터링 대상을 그룹으로 묶는 방법은 다음과 같습니다.

네이버 클라우드 플랫폼 콘솔에서 Menu > Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.
Configuration > Template 메뉴를 차례대로 클릭해 주십시오.
[Target Group] 탭을 클릭한 후 [Target Group 생성] 버튼을 클릭해 주십시오.
아래와 같이 그룹 설정을 입력한 후 [생성] 버튼을 클릭해 주십시오.

Product Type: Cloud Hadoop(VPC)
그룹 이름, 그룹 설명: 그룹 이름과 설명 입력
선택 가능한 감시 대상: 그룹에 포함할 모니터링 대상을 모두 선택한 후 클릭

Rule Template 설정

Rule Template을 설정하여 특정한 모니터링 항목을 템플릿으로 저장하는 방법은 다음과 같습니다.

네이버 클라우드 플랫폼 콘솔에서 Menu > Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.
Configuration > Template 메뉴를 차례대로 클릭해 주십시오.
[Rule Template] 탭을 클릭한 후 [Rule Template 생성] 버튼을 클릭해 주십시오.
다음와 같이 템플릿 설정을 입력한 후 [다음] 버튼을 클릭해 주십시오.
- Product Type: Cloud Hadoop(VPC)
- 템플릿 이름, 설명: 템플릿 이름과 설명을 입력
- 각 분류 탭에서 템플릿에 포함할 모니터링 항목(Metric)을 찾아 선택
다음과 같이 각 모니터링 항목의 모니터링 조건을 입력한 후 [저장] 버튼을 클릭해 주십시오.
- Dimension: 모니터링 항목의 속성
- Level: 이벤트 발생 시 레벨
- Condition: 이벤트 발생 조건
- Method: 모니터링 항목의 집계 함수
- Duration: 지속 시간
참고

Cloud Hadoop(VPC)의 CPU/user_rto(cpu_idx: 1)의 값이 0으로 1분간 지속될 경우 Info 레벨의 이벤트가 발생하도록 설정하는 예시는 아래와 같습니다.

이벤트 설정

모니터링 대상과 항목을 선택하고, 모니터링 조건 및 통보 액션을 설정하여 이벤트를 생성하고, 생성한 이벤트의 현황을 확인할 수 있습니다.

참고

이 가이드에서는 이벤트의 통보 액션으로 알림 메시지 발송을 사용하는 방법을 설명합니다. Integration, Cloud Functions, Auto Scaling 정책 등 다른 통보 액션에 대한 설명은 Cloud Insight 사용 가이드를 참고해 주십시오.

이벤트를 설정하는 방법은 다음과 같습니다.

네이버 클라우드 플랫폼 콘솔에서 Menu > Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.
Configuration > Event Rule 메뉴를 차례대로 클릭해 주십시오.
[Event Rules 생성] 버튼을 클릭해 주십시오.
감시 상품 선택 항목에서 Cloud Hadoop(VPC) 를 선택한 후 [다음] 버튼을 클릭해 주십시오.
개별 모니터링 대상 또는 모니터링 그룹을 선택한 후 [다음] 버튼을 클릭해 주십시오.
- 새로운 그룹을 생성하려면 Target Group 설정을 참고해 주십시오.
개별 모니터링 항목 또는 모니터링 템플릿을 선택한 후 [다음] 버튼을 클릭해 주십시오.
- 새로운 템플릿을 생성하려면 Rule Template 설정을 참고해 주십시오.
알림 메시지 발송 탭에서 통보 대상자 그룹을 선택한 후 [다음] 버튼을 클릭해 주십시오.
- 새로운 통보 대상자 그룹을 생성하려면 통보 대상자 그룹 생성을 참고해 주십시오.
설정한 이벤트 내용을 확인한 후 [생성] 버튼을 클릭해 주십시오.

이벤트 현황 확인

생성한 이벤트의 현황을 확인하는 방법은 다음과 같습니다.

네이버 클라우드 플랫폼 콘솔에서 Menu > Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.
Event 메뉴를 클릭해 주십시오. 이벤트 룰에 의해 이벤트가 발생한 경우, 발생된 이벤트의 상세 내용을 아래과 같이 확인할 수 있습니다.

통보 대상자 그룹 생성

이벤트 알림 메시지를 발생할 통보 대상자 그룹을 생성하고 대상자를 추가하는 방법은 다음과 같습니다.

네이버 클라우드 플랫폼 콘솔에서 Menu > Services > Management & Governance > Cloud Insight(Monitoring) 메뉴를 차례대로 클릭해 주십시오.
Notification Recipient 메뉴를 차례대로 클릭해 주십시오.
대상자그룹 목록의 버튼을 클릭하고 생성할 그룹 이름을 입력한 후 버튼을 클릭해 주십시오.
대상자그룹 목록의 전체 대상자를 클릭해 주십시오.
생성한 그룹에 할당할 대상자를 선택한 후 [할당] 버튼을 클릭해 주십시오.
- 새로운 대상자를 추가하려면 [대상자 추가] 버튼을 클릭한 후 Cloud Insight 사용 가이드를 참고하여 대상자를 추가해 주십시오.
추가할 통보 대상자의 정보를 입력하고 본인인증을 완료한 후 [등록] 버튼을 클릭해 주십시오.

Cloud Hadoop Metric

생성된 모든 클러스터에 대해서 아래의 지표를 모니터링 할 수 있습니다. Cloud Insight는 지표에 대한 데이터를 1분 간격으로 수집합니다.

참고

클러스터의 HDFS, YARN 이 정상적으로 동작하지 않을 경우 지표는 수집되지 않고, 대시보드에서도 확인할 수 없습니다.

지표	타입	단위	설명
active_nodes	INTEGER	num	number of nodes presently running MapReduce tasks or jobs
allocated_container	INTEGER	num	number of resource containers allocated by the ResourceManager
allocated_mb	INTEGER	MB	amount of memory allocated to the cluster
allocated_v_cores	INTEGER	num	number of core nodes working
apps_completed	INTEGER	num	number of applications submitted to YARN that have completed
apps_failed	INTEGER	num	number of applications submitted to YARN that have failed to complete
apps_killed	INTEGER	num	number of applications submitted to YARN that have been killed
apps_pending	INTEGER	num	number of applications submitted to YARN that are in a pending state
apps_running	INTEGER	num	number of applications submitted to YARN that are running
apps_submitted	INTEGER	num	number of applications submitted to YARN
available_mb	INTEGER	MB	amount of memory available to be allocated
capacity_remaining_gb	INTEGER	GB	amount of remaining HDFS disk capacity
corrupt_blocks	INTEGER	num	number of blocks that HDFS reports as corrupted
decommissioned_nodes	INTEGER	num	number of nodes allocated to MapReduce applications that have been marked in a DECOMMISSIONED state
hdfs_bytes_read	INTEGER	Bytes	number of bytes read from HDFS
hdfs_bytes_written	INTEGER	Bytes	number of bytes written to HDFS
hdfs_utilization	FLOAT	%	percentage of HDFS storage currently used
lost_nodes	INTEGER	num	number of nodes allocated to MapReduce that have been marked in a LOST state
missing_blocks	INTEGER	num	number of blocks in which HDFS has no replicas
num_live_data_nodes	INTEGER	num	number of data nodes that are receiving work from Hadoop
pending_containers	INTEGER	num	number of containers in the queue that have not yet been allocated
pending_deletion_blocks	INTEGER	num	number of blocks marked for deletion
pending_replication_blocks	INTEGER	num	status of block replication: blocks being replicated, age of replication requests, and unsuccessful replication requests
pending_v_cores	INTEGER	num	number of core nodes waiting to be assigned
rebooted_nodes	INTEGER	num	number of nodes available to MapReduce that have been rebooted and marked in a REBOOTED state
reserved_containers	INTEGER	num	number of containers reserved
reserved_mb	INTEGER	MB	amount of memory reserved
total_load	INTEGER	num	total number of concurrent data transfers
total_mb	INTEGER	MB	total amount of memory in the cluster
total_nodes	INTEGER	num	number of nodes presently available to MapReduce jobs
under_replicated_blocks	INTEGER	num	number of blocks that need to be replicated one or more times
unhealthy_nodes	INTEGER	num	number of nodes available to MapReduce jobs marked in an UNHEALTHY state
yarn_memory_available_percentage	FLOAT	%	percentage of remaining memory available to YARN (= available_mb / total_mb)

Documentation Index