Cloud Hadoop 개요
    • PDF

    Cloud Hadoop 개요

    • PDF

    Article Summary

    Cloud Hadoop은 Apache Hadoop, HBase, Spark, Hive, Presto 등의 오픈소스 기반 프레임워크를 사용자가 자유롭게 사용하여 빅데이터를 쉽고 빠르게 처리할 수 있는 완전 관리형 클라우드 분석 서비스입니다. 터미널을 통한 서버 직접 접속을 허용하고, Ambari를 통해서 제공되는 편리한 클러스터 관리 기능을 통해 사용자가 직접 관리할 수 있습니다.
    네이버 클라우드 플랫폼의 Cloud Hadoop 서비스로 초기 인프라를 손쉽게 구성할 수 있으며, 두 개의 마스터 노드 제공 및 필요 시 언제든지 가능한 노드 확장/축소를 통해 서비스와 작업의 안정성 및 유연한 확장성과 가용성을 확보할 수 있습니다. 또한 다양한 프레임워크와 서버 타입 지원으로 대용량의 데이터를 분석할 수 있으며, Web UI를 통해 관리 및 모니터링하여 클러스터를 제어할 수 있습니다.

    Cloud Hadoop이 제공하는 다양한 기능

    • 사용 편의성

      • Cloud Hadoop은 자동으로 클러스터 생성을 지원하여 인프라 관리 작업에 대한 부담을 덜 수 있습니다.
      • 여러 오픈소스 프레임워크 설치 및 구성, 최적화 과정을 통해 언제든 분석 가능한 시스템을 확보할 수 있습니다.
    • 비용 효율성

      • 클러스터가 시작된 시점부터 종료될 때까지 사용자가 사용한 만큼만 지불하는 효율적인 서비스입니다.
      • 데이터 저장소로 네이버클라우드의 Object Storage를 사용하여 저렴한 비용으로 대량 데이터를 저장합니다.
    • 유연한 확장성 및 안정성

      • 사용자 원하는 시간에 데이터 분석에 필요한 인스턴스의 수를 손쉽게 줄이거나 늘릴 수 있습니다.
      • 두 개의 마스터 노드를 제공함으로써 서비스와 작업의 안정성과 가용성을 높일 수 있습니다.
    • 다양한 프레임워크 지원

      • Hadoop: 간단한 프로그래밍 모델을 사용하여 컴퓨터 클러스터 전체에 대규모 데이터 세트를 분산 처리할 수 있는 프레임워크
      • HBase: 분산되고 확장 가능한 대용량 데이터 저장소
      • Spark: 대규모 데이터 처리를 위한 통합 분석 엔진
      • Hive: SQL을 사용하여 분산 스토리지에 있는 대규모 데이터 세트의 읽기, 쓰기 및 관리할 수 있는 데이터웨어 하우스 소프트웨어
      • Presto: 빅데이터용 분산 SQL 쿼리 엔진
    • 관리 및 모니터링을 위한 Web UI 제공

      • Cloud Hadoop 클러스터에 대한 정보 및 상태를 관리할 수 있는 UI를 제공합니다.
      • 클러스터에 대한 루트 접근 권한을 제공하므로 클러스터를 완벽하게 제어할 수 있으며, 프레임워크의 설정값을 확인하거나 수정할 수 있습니다.

    Cloud Hadoop 사용 가이드 안내

    Cloud Hadoop 연관 리소스

    네이버 클라우드 플랫폼에서는 Cloud Hadoop에 대한 고객의 이해를 돕기 위해 가이드 외에도 다양한 연관 리소스를 제공하고 있습니다. Cloud Hadoop을 회사에 도입하기 위해 고민 중이거나 데이터 관련 정책을 수립하면서 자세한 정보가 필요한 개발자, 마케터 등은 다음 리소스를 적극 활용해 보십시오.

    자주 하는 질문을 먼저 확인해 보십시오.

    Q. Cloud Hadoop 클러스터 노드 타입에는 어떤 것이 있나요?
    A. Cloud Hadoop 클러스터는 데이터를 분산 저장하고 분석할 목적으로 구성된 클러스터, 노드의 집합이라고 할 수 있습니다. 클러스터 내부 노드는 목적에 따라서 아래와 같이 세 가지 타입이 존재합니다.

    • 엣지 노드: 외부 접속을 위한 게이트웨이(Gateway)용 노드
    • 마스터 노드: 작업자 노드를 모니터링하는 관리자 노드. 고가용성 지원으로 2대의 마스터 노드가 생성되며 개수 변경은 불가
    • 작업자 노드: 마스터 노드의 명령을 받아 실제 데이터 분석 등의 작업을 수행하는 노드. 최초 생성은 최소 2개, 최대 8개까지 가능하며, 그 이후에는 동적으로 노드 추가/삭제가 가능

    Q. Cloud Hadoop 서비스는 어떻게 구성되나요?
    A. Cloud Hadoop은 Hadoop 클러스터를 쉽고 간편하게 구축하고 관리할 수 있는 서비스입니다. Hadoop, HBase, Spark, Presto 등의 구성 요소를 만들어 대용량 데이터 처리를 위한 시스템을 구축하고 운영할 수 있습니다. 클러스터에는 대량의 데이터를 처리할 수 있는 오픈소스 프레임워크인 Apache Hadoop, HBase, Hive, Spark를 설치할 수 있습니다. Cloud Hadoop 서비스의 구성은 다음의 구성도(아키텍처)를 참고해 주십시오.

    chadoop-1-1-01_ko.png

    Q. putty에서 SSH 접속 과정에서 network error: connection timed out 가 발생합니다.
    A. ACG에서 ssh 접속(22번 포트)를 허용하였으나, ssh 접속 에러가 발생하는 경우, Network ACL (NACL)에서 ssh 접속(22번 포트)이 차단된 것일 수 있습니다. NACL에서 ssh 접속(22번 포트)을 허용하십시오.

    Q. NCP 서버의 Bandwidth는 어느 정도인가요?
    A. NCP 서버의 기본 Bandwidth는 약 1Gbps(1Gbits/sec) 입니다.

    Q. NCP 서버 사용 중 데이터를 읽는 과정에서 전체적으로 트래픽이 많이 발생합니다. 네트워크 트래픽 사용량이 많을 때는 어떻게 사용하는 게 좋을까요?
    A.

    • 여러 대의 작업자 노드를 추가해 데이터와 트래픽을 분산시킬 수 있습니다.
    • Storage 리소스와 Computing 리소스를 분리하여 Object Storage에 데이터를 저장하고, Cloud Hadoop의 Computing 자원을 이용하여 Object Storage의 데이터를 읽고 저장하면 네트워크 트래픽 사용량을 줄일 수 있습니다.

    Q. Cloud Hadoop Ambari Metric 서비스에서 일반적으로 동작 중인 상태와 maintenance mode로 동작 중인 상태에서 기능에 어떠한 차이가 있나요?
    A. Ambari WebUI에서 제공하는 Maintenance Mode 기능은 서비스 또는 호스트 단위로 설정이 가능하도록 되어 있습니다.

    • Maintenance mode 설정하게 되면, 알람 발송이 되지 않습니다.
    • 호스트(서버) 단위로 Maintenance Mode를 설정한 경우, 서비스 재시작 작업 등과 같은 일괄 작업을 수행 시 일괄 작업에서 제외 처리됩니다.

    Q. Hue에서 show tables를 수행 시 Hive 인터프리터에 View 테이블 목록이 나타나지 않습니다.
    A. show tables수행 시 일반 테이블 목록만 노출되게 됩니다. show views수행하여 View 테이블 목록을 확인하실 수 있습니다.

    Q. hive가 아닌 계정으로 Hive에 접속 후 hive query를 실행하는 경우에 Permission denied 오류가 발생합니다.
    A. 두 가지 해결 방안이 있습니다.

    • 해당 계정을 Yarn Queue ACL에 추가하는 방안이 있습니다. Ambari WebUI 로그인 > Yarn Queue Manager 선택 > default (yarn queue) 선택 후 Administer Queue의 Users 와 Submit Applications 의 Users에 해당 계정을 추가하십시오.
    • hive 계정을 이용하시면 별도의 계정 추가 없이 사용 가능합니다.

    Q. hadoop fsck / 를 실행하여 파일시스템 체크 시 오류가 발생합니다.
    A. hdfs의 fsck 는 hdfs 계정으로 수행가능합니다. sshuser로 로그인 후 sudo su - hdfs로 계정을 전환한 후 수행하십시오.

    Q. Hive 를 통해서 Object Storage(S3) 연동하는 과정에서 S3 와 통신 오류가 발생합니다.
    A. Cloud Hadoop 리전별 object storage 주소를 확인해 주십시오. Public Subnet 내 서버라도 공인IP 할당이 되지 않은 마스터 서버에서는 Object Storage 사설 도메인으로만 통신이 가능합니다.

    참고

    Object Storage 도메인 주소

    • Private Endpoint: kr.object.private.fin-ncloudstorage.com
    • Public Endpoint: kr.object.fin-ncloudstorage.com

    Q. Object Storage 버킷을 이용해서 데이터 마이그레이션을 진행하려고 합니다. 하나의 Object Storage 버킷에 여러개의 Hadoop Cluster을 연결할 수 있나요?
    A. Cloud Hadoop 생성 시 지정한 Object Storage 버킷은 다른 Cloud Hadoop 생성 시 선택할 수 없습니다. 마이그레이션을 하시기 위해서는 아래와 같은 방법을 사용하실 수 있습니다.

    1. Object Storage에 신규 버킷을 생성하고, 데이터 업로드를 진행하십시오.
    2. 신규 Cloud Hadoop 생성 시 데이터를 업로드한 신규 버킷을 선택하고 진행하십시오.

    Q. 현재 사용 중인 Cloud Hadoop 클러스터는 삭제한 후, 해당 데이터는 그대로 사용하고 싶다면 어떻게 해야 하나요?
    A. 아래 방법을 통해 Cloud Hadoop 클러스터는 삭제하더라도 데이터는 그대로 사용할 수 있습니다.

    Q. 클러스터 생성 시 클러스터 add-on (HBASE, Impala, Nifi 등)을 선택하지 않아도 추후 설치를 통해 이용할 수 있나요?
    A. 클러스터를 생성할 때 add-on을 선택하지 않더라도 Ambari Web UI에서 [Add Service] 버튼을 클릭하여 서비스를 추가할 수 있습니다.

    Q. Apache Ambari에서 Hive View를 접속할 수 없습니다.
    A. Ambari 2.7.0부터는 Hive View를 지원하지 않습니다. 이용을 원하실 경우 Hue를 이용하여 Hive에 접속하십시오.

    Q. Cloud Hadoop 클러스터 1.9 버전을 사용할 경우 Presto 0.240 버전이 내장되어 있는데, Presto를 최신 버전으로 마이그레이션 할 수 있나요?
    A. Presto(Trino)에 대한 버전 업그레이드는 지원하지 않습니다. Cloud Hadoop 2.0 이상의 버전은 Presto 0.240의 상위 버전인 Trino 377을 지원하고 있으니 참고해주십시오.
    Cloud Hadoop에서 지원하는 버전에 대한 자세한 내용은 클러스터 버전별 지원 애플리케이션에서 확인하실 수 있습니다.


    이 문서가 도움이 되었습니까?

    Changing your password will log you out immediately. Use the new password to log back in.
    First name must have atleast 2 characters. Numbers and special characters are not allowed.
    Last name must have atleast 1 characters. Numbers and special characters are not allowed.
    Enter a valid email
    Enter a valid password
    Your profile has been successfully updated.