데이터박스 접속 설정
    • PDF

    데이터박스 접속 설정

    • PDF

    Article Summary

    데이터박스 생성이 완료되면 사용자의 메일 계정으로 안내 메일이 발송됩니다. 안내 메일을 확인한 후, 네이버 클라우드 플랫폼의 콘솔에 접속하여 SSL VPN 사용자 설정을 완료합니다. 그 다음, 데이터박스의 접속 정보를 사용하여 인프라 서비스에 접속하여 샘플 데이터를 확인한 후, 분석에 필요한 모듈을 설치합니다. 데이터 공급 신청 후에는 외부망과의 통신이 차단되므로, 데이터 공급 신청 전에 필요한 모듈을 설치하거나 필요한 데이터를 다운받아야 합니다. 외부망과의 통신이 차단된 이후에는 Object Storage의 Bucket에 올린 파일만 제한적으로 반입할 수 있습니다.

    1. SSL VPN 사용자 설정

    데이터박스를 사용하려면 SSL VPN 사용자 설정을 완료해야 합니다. SSL VPN 사용자를 설정하는 방법은 다음과 같습니다.

    1. 네이버 클라우드 플랫폼의 콘솔에서 Services > Big Data & Analytics > Cloud Data Box > My Space 메뉴를 차례대로 클릭해 주십시오.
    2. 생성된 데이터박스를 선택하고 [서버 상세정보 보기] 를 클릭해 주십시오.
      clouddatabox-datarequest_add01_ko
    3. 인프라 탭에서 [SSL VPN 사용자 설정] 버튼을 클릭해 주십시오.
      clouddatabox-connect_sslvpn01_ko
    4. 등록 가능한 사용자 수를 확인한 후, 인증에 사용할 Username, Password, Email, SMS 항목을 입력하고 [추가] 버튼을 클릭해 주십시오.
      clouddatabox-connect_ssl04_ko
    5. 사용자 설정이 완료되면 [닫기] 버튼을 클릭해 주십시오.
    참고

    SSL VPN 사용자 계정 수 변경, 삭제, 비밀번호 변경 방법에 대한 설명은 데이터박스 관리을 참고해 주십시오.

    2. 인프라 서비스의 접속 정보 확인

    데이터박스 인프라 서비스의 접속 정보를 확인하는 단계입니다. 인프라 서비스의 접속 정보를 확인하는 방법은 다음과 같습니다.

    1. 네이버 클라우드 플랫폼의 콘솔에서 Services > Big Data & Analytics > Cloud Data Box > My Space 메뉴를 차례대로 클릭해 주십시오.
    2. 생성된 데이터박스를 확인하고 [서버 상세정보 보기] 를 클릭해 주십시오.
      clouddatabox-datarequest_add01_ko
    3. 인프라 탭에서 상품별 IP와 ID를 확인해 주십시오.
      • Cloud Hadoop과 TensorFlow의 clouddatabox-open를 클릭하면 상세 정보를 확인할 수 있습니다.
        clouddatabox-connect_info_ko

    3. SSL VPN 및 Connect 서버 접속

    데이터박스 인프라 서비스에 접속하려면 먼저 SSL VPN에 접속한 후 Connect 서버에 접속해야 합니다.

    주의
    • 다른 VPN 연결이 활성화되어 있는 상태에서 SSL VPN Agent를 실행할 경우 충돌할 가능성이 있으므로 다른 VPN은 완전히 종료한 후 SSL VPN Agent를 실행해 주십시오.

    SSL VPN을 연결하고 Connect 서버에 접속하는 방법은 다음과 같습니다.

    1. SSL VPN Agent를 설치해 주십시오.
    2. Cisco AnyConnect Secure Mobility Client를 실행해 주십시오.
      • Cisco AnyConnect Secure Mobility Client에 접속하는 방법은 SSL VPN 사용자 가이드(VPC)의 SSL VPN Agent 접속을 참조해 주십시오.
      • 접속할 주소 : https://sslvpn-vpc-415.fin-ncloud.com
    3. 1. SSL VPN 사용자 설정 단계에서 등록한 Username, Password를 입력하고 [로그온] 버튼을 클릭해 주십시오.
    4. 휴대전화 또는 이메일로 전송된 OTP 번호를 입력하고 [로그온] 버튼을 클릭해 주십시오.
    5. Connect 서버는 Windows 서버이므로 Connect 서버에 접속하기 위해서 PC의 원격 데스크톱 연결을 실행하고 Connect 서버의 IP를 입력한 후 [연결] 버튼을 클릭하고 사용자 이름과 암호를 입력해 주십시오.
      • Connect 서버나 Ncloud TensorFlow Server 또는 하둡 클러스터의 비밀번호를 잊어버렸거나 비밀번호 초기화 안내 메일을 받았을 경우에는 Cloud Data Box > My Space > 상세 화면의 [비밀번호 초기화] 버튼을 클릭하여 비밀번호를 변경해 주십시오.
    참고

    데이터 공급 신청 이후에는 외부망과의 통신이 모두 차단되어 pip install 등의 명령어로 모듈을 설치할 수 없고, 직접 설치 파일을 다운받은 후 '파일 반입' 신청을 통해 데이터박스로 설치 파일을 가져와야 모듈을 설치할 수 있습니다. 따라서 '데이터 공급 신청'을 수행하기 전에 샘플 데이터를 이용하여 분석 코드를 작성하면서 필요한 모듈을 모두 설치할 것을 권장합니다.

    4. Cloud Hadoop 서버 접속 및 이용

    Connect 서버에 설치된 Putty 프로그램 또는 Chrome 브라우저로 하둡 클러스터에 접속할 수 있습니다.

    참고

    Cloud Hadoop은 사용자에게 관리도구(Ambari) 및 서버 직접 접속 권한을 제공하여 사용자가 직접 클러스터를 관리할 수 있도록 도와주는 서비스입니다. 이 가이드에서는 하둡 클러스터에 접속하는 방법만 안내하며, Cloud Hadoop를 사용하는 방법에 대한 자세한 설명은 Cloud Hadoop 사용 가이드를 참조해 주십시오.

    pem 키 변환

    PuTTY를 이용하여 하둡 클러스터 노드에 접속하기 위해 제공된 pem 파일을 ppk 파일로 변환해야 합니다.
    pem 파일을 ppk 파일로 변환하는 방법은 다음과 같습니다.

    1. Connect 서버에서 화면 하단의 Search Windowsputtygen을 입력한 후 PuTTY Key Geneartor를 실행해 주십시오.
    2. 'Type of key to generate'에 'RSA'가 선택된 것을 확인한 후 [Load] 버튼을 클릭해 주십시오.
    3. 'All Files(.)'를 선택하고 'C:\Users\Public\Desktop'에 제공된 pem 파일을 선택해 주십시오.
    4. [Save private key] 버튼을 클릭해 주십시오.
      • PuTTY에서 사용할 수 있는 형식으로 키가 저장됩니다.
    참고

    Connect 서버에서 pem 파일이 보이지 않을 경우, File ExplorerView 메뉴의 Hidden items를 선택하여 숨겨진 파일을 볼 수 있도록 설정해 주십시오.

    클러스터 노드에 SSH로 접속

    ppk 파일을 이용하여 SSH로 하둡 엣지 노드에 접속하는 방법은 다음과 같습니다.

    1. Connect 서버에서 PuTTY를 실행한 후 접속 정보를 입력해 주십시오.
      • Host Name : sshuser@하둡엣지노드IP
      • Port : 22
      • Connection type : SSH
      참고

      하둡 엣지 노드IP는 네이버 클라우드 플랫폼 콘솔의 인프라 정보에서 확인할 수 있습니다.

    2. Connection > SSH > Auth를 차례대로 클릭한 후 [Browser] 버튼을 클릭해서 ppk 파일을 선택해 주십시오.
      • ppk 파일을 생성하는 방법은 pem 키 변환을 참고해 주십시오.
    3. 하둡 클러스터 엣지 노드에 접속하려면 [Open] 버튼을 클릭해 주십시오.
    4. 전체 노드를 확인하려면 하둡 클러스터에 접속한 후 아래 명령어를 입력해 주십시오.
      $ cat /etc/hosts 
      
      • 엣지 노드: e-001로 시작
      • 마스터 노드: m-001, m-002로 시작
      • 작업자 노드: d-001부터 생성한 작업자 노드 수 만큼
        databox-connect-03
    5. 마스터 노드 또는 작업자 노드로 접속하려면 엣지 노드에 접속한 후 아래와 같은 명령어를 입력해 주십시오. 마스터 노드와 작업자 노드 이름은 m-00# 또는 d-00#(여기서 #은 순번임)까지 입력한 후 tab키를 입력하면 자동으로 완성이 됩니다. 접속 확인에 yes를 입력하면 엣지 노드에서 다른 노드로 접속이 됩니다.
      또 다른 노드로 접속을 하려면 exit으로 다시 엣지 노드로 돌아온 후 다른 노드로 접속해 주십시오.
      • m-001-xxx은 위에서 조회한 노드 이름
      $ ssh sshuser@m-001-xxx 
      $ ...
      $ exit
      

    하둡 데이터 저장소 확인

    데이터박스 신청을 완료한 후에는 파일 반출입 시 사용하기 위해 신청한 NAS가 마운트되어 있음을 확인할 수 있고, 데이터 공급 신청을 완료한 후에는 신청한 데이터의 NAS가 Read-only로 마운트되어 있음을 확인할 수 있습니다.

    • 파일 반입/반출 신청용 nas : /mnt/nasw# (#은 번호)
      데이터박스 생성 시 신청한 NAS는 엣지 노드의 /mnt 디렉터리 하위에 마운트되어 있습니다. 하둡 엣지 노드에 SSH로 접속한 후 다음과 같이 확인 가능합니다.

      $ df -h
      
      참고

      신청한 NAS는 하둡 클러스터와 Ncloud TensorFlow Server에 함께 마운트가 되어 있어서 데이터를 서로 공유할 수 있습니다. 고객의 버킷에 파일을 올린 후 파일 반입 신청을 하면 이 NAS에 저장이 되고, 이 NAS에 파일을 올리고 파일 반출 신청을 하면 심사 후 고객의 오브젝트 스토리지 버킷으로 저장이 됩니다.

    • 샘플 데이터 : /user/ncp/sample
      샘플 데이터는 데이터박스 생성 이후에 아래의 HDFS에 업로드됩니다.

      $ hdfs dfs -ls /user/ncp/sample
      
    • 제공 데이터 nas : /mnt/xx (xx는 데이터의 마운트 디렉터리)
      제공되는 네이버 검색, 쇼핑, AI 데이터는 데이터 공급 이후에 /mnt 디렉터리 하위에 Read-only로 마운트됩니다. 하둡 엣지 노드에 SSH로 접속한 후 다음과 같이 확인 가능합니다.

      $ df -h
      
      참고
      • 신청한 데이터는 필요한 데이터를 하둡에 직접 업로드하여 사용해 주십시오. 자세한 방법은 제공된 데이터를 하둡 클러스터에 업로드를 참고해 주십시오.
      • 새로운 데이터를 업로드하기 전에 하둡 저장 공간이 충분한지 확인하고, 하둡 저장 공간이 부족한 경우, 불필요한 데이터를 삭제해 주십시오.

    터널링을 이용한 웹 UI 접속

    Ambari, Hue, Zeppelin Notebook 등은 IP와 포트를 이용해서 웹 UI에 접속할 수 있지만, HDFS NameNode와 같은 일부 서비스는 터널링을 통해서만 웹 UI에 접속할 수 있습니다. Ambari, Hue, Zeppelin Notebook 이외의 서비스에 접속하려면 터널링 후 터널링 설정이 완료된 웹 브라우저로 접속해야 합니다.

    터널링을 이용하여 웹 UI에 접속하는 방법은 다음과 같습니다.

    1. Connect 서버에서 PuTTY를 실행한 후 접속 정보를 입력해 주십시오.
      • Host Name: sshuser@하둡엣지노드IP
      • Port: 22
      • Connection type: SSH
      참고

      하둡 엣지 노드IP는 데이터박스의 [상세] 버튼을 클릭하면 나타나는 [인프라] 탭에서 확인할 수 있습니다.

    2. 화면 좌측의 Category에서 Connection > SSH > Auth를 차례대로 클릭해 주십시오.
    3. [Browser] 버튼을 클릭한 후 ppk 파일을 선택해 주십시오.
    4. 화면 좌측의 Category에서 Connection > SSH > Tunnels를 차례대로 클릭해 주십시오.
    5. Source port에 9876을 입력하고 Dynamic을 선택한 후 [Add] 버튼을 클릭해 주십시오.
    6. 화면 좌측의 Category에서 Session을 선택하고 Saved Sessions에 식별할 수 있는 이름을 입력한 후 [Save] 버튼을 클릭해 주십시오.
      • 설정한 정보가 저장됩니다.
      • 설정 정보가 저장된 후에는 저장된 정보를 Load하여 접속할 수 있습니다.
    7. [Open] 버튼을 클릭하여 하둡 클러스터에 접속해 주십시오.
    8. Connect 서버의 바탕화면에 있는 Chrome-Tunnel 아이콘을 더블 클릭해 주십시오.
      • Chrome-Tunnel은 Chorme 바로가기 Properties의 Target 마지막에 --proxy-server="socks5://127.0.0.1:9876"를 아래와 같이 추가한 것입니다.
        "C:\Program Files\Google\Chrome\Application\chrome.exe" --proxy-server="socks5://127.0.0.1:9876"
    9. 주소를 입력하여 Ambari에 접속해 주십시오.
      • https://하둡엣지노드IP:8443
      • id: ncp
      • pw: 데이터박스 생성 시 입력한 비밀번호
      • 반드시 https로 접속해 주십시오. 최초 접속 시 접속하는 데 시간이 다소 소요될 수 있습니다.
    10. 최초 접속시 경고 메시지가 뜰 경우 AdvancedProceed to ... 를 선택해 주십시오.
      databox-connect-04_ko
    11. Ambari에 접속한 이후 서비스의 Quick Links를 통해서 HDFS NameNode 등 다른 서비스 웹UI로 접속할 수 있습니다.

    5. Ncloud TensorFlow Server 접속 및 이용

    Connect 서버에서 Putty 또는 웹 브라우저인 Chrome으로 TensorFlow CPU 및 TensorFlow GPU 서버에 접속할 수 있습니다.

    Jupyter Notebook 접속

    Connect 서버에서 Chrome 브라우저를 통해 Jupyter Notebook에 접속하는 방법은 다음과 같습니다.

    1. Connect 서버의 바탕화면에 있는 Chrome 아이콘을 더블 클릭해 주십시오.
    2. 주소를 입력하여 Jupyter Notebook에 접속해 주십시오.
      • http://서버IP:18888
      • pw : 데이터박스 생성 시 입력한 pw
      • 반드시 http로 접속해 주십시오. 최초 접속 시 접속하는 데 시간이 다소 소요될 수 있습니다.
    참고

    Ncloud TensorFlow Server IP는 데이터박스의 [상세] 버튼을 클릭하면 나타나는 [인프라] 탭에서 확인할 수 있습니다.

    Ncloud TensorFlow Server 데이터 저장소 확인

    Chrome 브라우저로 Jupyter Notebook에 로그인하면 Home 화면에서 제공된 데이터 저장소를 확인할 수 있습니다.
    databox-connect-11_ko

    항목설명
    ① 추가 블록 스토리지/home/ncp/workspace/blocks
    TesnsorFlow 서버에는 기본으로 블록 스토리지 2TB가 추가 제공됨. 제공된 NAS 데이터 중 자주 사용되는 데이터는 성능을 위해 블록 스토리지에 저장해서 사용할 것을 권장함
    ② 파일 반입/반출 신청용nas: /home/ncp/workspace/nasw# (#은 번호)
    파일 반입 및 반출 신청 시 데이터가 전달되는 NAS.
    데이터박스 생성 시 신청한 NAS는 하둡 클러스터에도 함께 마운트가 되어 있어서 데이터 바로 공유 가능
    ③ 샘플 데이터/home/ncp/workspace/sample
    데이터박스 생성 시 샘플 데이터가 제공되는 위치. 샘플 데이터를 활용해서 필요한 모듈을 설치하고 분석 환경 구성 가능
    ④ 제공 데이터(read-only)/home/ncp/workspace/xx (xx는 데이터의 마운트 디렉터리)
    제공되는 네이버 검색, 쇼핑, AI 데이터는 데이터 공급 신청 이후에 Jupyter home 디렉터리에 마운트되어 제공됨. 신청 데이터의 NAS는 읽기만 가능
    참고

    '/home/ncp/workspace'는 Jupyter notebook의 home directory입니다.

    서버에 SSH로 접속

    Ncloud TensorFlow Server에 접속하는 방법은 다음과 같습니다.

    1. Connect 서버에서 PuTTY를 실행한 후 접속 정보를 입력해 주십시오.
      • Host Name : root@서버IP
      • Port : 22
      • Connection type : SSH
    2. [Open] 버튼을 클릭해 주십시오.
    참고

    Ncloud TensorFlow Server IP는 데이터박스의 [상세] 버튼을 클릭하면 나타나는 [인프라] 탭에서 확인할 수 있습니다.다

    Ncloud TensorFlow Server 도커 재시작

    TensorFlow 도커를 재시작해야 하는 경우, 다음과 같이 명령어를 입력하여 재시작한후 Jupyter notebook을 다시 시작해 주십시오.

    • TensorFlow CPU 재시작
      docker restart tf-server-mkl  
      
    • TensorFlow GPU 재시작
      docker restart tf-server-gpu
      

    Jupyter notebook 재시작

    Jupyter notebook을 재시작해야 하는 경우, 다음과 같이 명령어를 입력해 주십시오.

    jup restart  또는
    jup stop 실행 후 jup start
    

    이 문서가 도움이 되었습니까?

    Changing your password will log you out immediately. Use the new password to log back in.
    First name must have atleast 2 characters. Numbers and special characters are not allowed.
    Last name must have atleast 1 characters. Numbers and special characters are not allowed.
    Enter a valid email
    Enter a valid password
    Your profile has been successfully updated.