제공 데이터 상세 설명
    • PDF

    제공 데이터 상세 설명

    • PDF

    Article Summary

    Cloud Data Box에서는 네이버 검색과 쇼핑 등 사용자 행동 데이터, AI 학습용 이미지와 어노테이션 데이터, 뉴스 기사와 NLP 분석을 위한 개체 데이터 등을 제공합니다.
    데이터 박스 생성을 하면 검색과 쇼핑 샘플 데이터를 기본으로 제공합니다. 샘플 데이터는 Cloud Hadoop HDFS에 업로드하여 제공하고, TensorFlow 서버에 NAS를 read-only로 마운트하여 제공합니다. 분석 환경 구성 후 데이터 공급 신청을 하면 기본 옵션(전년도 상반기)의 검색과 쇼핑, AI 데이터를 Cloud Hadoop과 TensorFlow 서버에 NAS를 read-only로 마운트하여 제공합니다. 인사이트 옵션을 신청하면 전전 연도 상반기 부터 전월까지의 최신 데이터를 제공하며, 매월 15일에 전월 데이터를 추가로 제공합니다.

    Cloud Data Box에서 제공하는 데이터에 대해 상세하게 설명합니다.

    참고
    • 검색 데이터와 쇼핑 데이터는 모두 로그인한 사용자 데이터를 대상으로 추출했습니다.
    • 샘플 데이터 중 일부를 다운로드하려면 sample.xlsx를 클릭해 주십시오.
    • ${DATABOX_HOME_DIR} : 하둡 클러스터 NAS의 home directory는 /mnt이며, TensorFlow 서버의 home directory는 /home/ncp/workspace 입니다. 샘플 데이터 하둡 HDFS 데이터 저장소의 home directory는 /user/ncp입니다.

    기본 데이터 및 인사이트 옵션 데이터

    검색 데이터(search)

    1. 검색 클릭 데이터 search/click

    항목설명
    데이터 소개네이버 사용자들이 어떤 키워드를 검색하고 어떤 영역을 클릭했는지 보여주는 데이터
    (하루 100명 이상의 사용자가 검색한 검색어 대상)
    데이터 제공 기간- Standard Data: 전년 상반기(1월~6월), 매년 초 업데이트
    - Insight Data: 2년 전 1월 ~ 해당 연도 전월, 매월 업데이트(21년 8월 기준, 2019년 1월 ~ 2021년 7월)
    (단위: 일간 단위)
    추출 대상기간 동안 클릭 이력이 있는 네이버 로그인 사용자
    데이터 집계 기준- date(기준일자): 검색/클릭 일자
    - device(기기): 사용자가 검색에 사용한 기기 정보 (mobile/pc)
    - gender(성별): 사용자의 성별 (f/m)
    - age(연령대): 5세 단위 (-12/13-18/19-24/25-29/30-34/35-39/40-44/45-49/50-54/55-59/60-64/65-69/70-)
    - loc1(지역1): 주소지 기준 광역시/도
    - loc2(지역2): 주소지 기준 시/군/구
    - keyword(검색어): 네이버 통합검색 영역에서 사용자가 입력한 키워드(소문자 변환, 공백 제거)
    - area(클릭 영역): 네이버 통합검색 결과에서 사용자가 클릭한 서비스 영역
    - count(클릭 사용자 수): 기준일, 기기, 성별, 연령대, 지역, 검색어, 클릭 영역별로 집계
    샘플 데이터 위치${DATABOX_HOME_DIR}/sample/search/click
    전체 데이터 위치20년 상반기 데이터인 경우: ${DATABOX_HOME_DIR}/search20y1h/search/click
    디렉터리 구조clouddatabox-data_searchclick.png
    참고

    검색 클릭 데이터 영역에 대한 상세 설명 및 예시는 검색 클릭 영역 예시 파일을 참고해 주십시오. 이 문서는 사용자의 이해를 돕기 위한 예시이며, 실제 제공되는 기능과 다소 다를 수 있습니다.

    2. 검색 클릭 코어커런스 search/click_cooccurrence

    항목설명
    데이터 소개네이버 사용자들이 1주 동안 함께 검색/클릭한 정보를 보여주는 데이터
    (주간 100명 이상의 사용자가 검색한 검색어 대상)
    데이터 제공 기간- Standard Data: 전년 상반기(1월~6월), 매년 초 업데이트
    - Insight Data: 2년 전 1월~해당 연도 전월, 매월 업데이트
    (단위: 주간 단위)
    추출 대상기간 동안 클릭 이력이 있는 네이버 로그인 사용자
    데이터 집계 기준- week(기준일자): 검색/클릭 일자
    - device(기기): 사용자가 검색에 사용한 기기 정보 (mobile/pc)
    - gender(성별): 사용자의 성별 (f/m)
    - age(연령대): 5세 단위 (-12/13-18/19-24/25-29/30-34/35-39/40-44/45-49/50-54/55-59/60-64/65-69/70-)
    - loc1(지역1): 주소지 기준 광역시/도
    - loc2(지역2): 주소지 기준 시/군/구
    - keyword1(검색어1): 네이버 통합검색 영역에서 사용자가 입력한 키워드(소문자 변환, 공백 제거)
    - area1(클릭영역1): 검색어1의 네이버 통합검색 결과에서 사용자가 클릭한 서비스 영역
    - keyword2(검색어2): 네이버 통합검색 영역에서 사용자가 입력한 키워드(소문자 변환, 공백 제거)
    - area2(클릭영역2): 검색어2의 네이버 통합검색 결과에서 사용자가 클릭한 서비스 영역
    - count(함께 클릭한 사용자 수): 기준일자, 기기, 성별, 연령대, 지역, 검색어1, 클릭 영역1, 검색어2, 클릭 영역2별로 집계(검색어1과 2의 순서 고려하지 않음)
    샘플 데이터 위치${DATABOX_HOME_DIR}/sample/search/click_cooccurrence
    전체 데이터 위치20년 상반기 데이터인 경우: ${DATABOX_HOME_DIR}/search20y1h/search/click_cooccurrence
    디렉터리 구조clouddatabox-data_searchclickco.png

    3. 검색 접속지 search/click_location

    항목설명
    데이터 소개네이버 사용자들이 어떤 지역에서 키워드를 검색하고 클릭했는지 보여주는 데이터
    (접속 지역은 IP 기반으로 측정하므로 정확도에 오차가 있을 수 있음)
    데이터 제공 기간-Standard Data: 전년도 상반기(1월~6월), 매년 초 업데이트
    - Insight Data: 2년 전 1월 ~ 해당년도 전월 (매월 업데이트)
    (단위: 일간 단위)
    추출 대상기간 동안 클릭 이력이 있는 네이버 로그인 사용자
    데이터 집계 기준- date(기준 일자): 검색/클릭 일자
    - time(시간대): 3시간 단위 그룹화 (00-02/03-05/06-08/09-11/12-14/15-17/18-20/21-23)
    - device(기기): 사용자가 검색에 사용한 기기 정보 (mobile/pc)
    - gender(성별): 사용자의 성별 (f/m)
    - age(연령대): 5세 단위 (-12/13-18/19-24/25-29/30-34/35-39/40-44/45-49/50-54/55-59/60-64/65-69/70-)
    - loc1(지역1): 접속지(광역시/도). 접속 IP기반으로 측정되는 지역
    - loc2(지역2): 접속지(시/군/구). 접속 IP기반으로 측정되는 지역
    - keyword(검색어): 네이버 통합검색 영역에서 사용자가 입력한 키워드(소문자 변환, 공백 제거). 하루 동안 서로 다른 사용자가 검색한 키워드 (검색 후 클릭까지 진행된 경우만 집계)
    - count(클릭 사용자 수): 기준일, 시간대, 기기, 성별, 연령대, 지역, 검색어별로 집계
    샘플 데이터 위치${DATABOX_DIR}/sample/search/click_location
    전체 데이터 위치20년 상반기 데이터인 경우: ${DATABOX_DIR}/search20y1h/search/click_location
    디렉터리 구조clouddatabox-data_searchclicklocation_ko

    쇼핑 데이터(shopping)

    1. 상품 클릭 데이터 shopping/click

    항목설명
    데이터 소개네이버 사용자들이 어떤 키워드를 검색하고 어떤 상품 카테고리의 상품을 클릭했는지 보여주는 데이터
    (하루 클릭 횟수 100회 이상의 검색어/상품 카테고리 대상)
    데이터 제공 기간- Standard Data: 전년 상반기(1월~6월), 매년 초 업데이트
    - Insight Data: 2년 전 1월~해당 연도 전월, 매월 업데이트
    (단위: 일간 단위)
    추출 대상기간 동안 상품 클릭 이력이 있는 네이버 로그인 사용자
    데이터 집계 기준- date(기준일자): 검색/클릭 일자
    - device(기기): 사용자가 검색에 사용한 기기 정보 (mobile/pc)
    - gender(성별): 사용자의 성별 (f/m)
    - age(연령대): 5세 단위 (-12/13-18/19-24/25-29/30-34/35-39/40-44/45-49/50-54/55-59/60-64/65-69/70-)
    - loc1(지역1): 주소지 기준 광역시/도
    - loc2(지역2): 주소지 기준 시/군/구
    - keyword(유입키워드): 사용자가 상품 클릭을 하기 전에 검색한 키워드
    - cat(상품카테고리): 사용자가 클릭한 상품의 대/중/소/세 카테고리
    - count(방문자 수): 기준일자, 기기, 성별, 연령대, 지역, 상품 카테고리, 검색어별로 집계
    샘플 데이터 위치${DATABOX_HOME_DIR}/sample/shopping/click
    전체 데이터 위치20년 상반기 데이터인 경우: ${DATABOX_HOME_DIR}/shopping20y1h/shopping/click
    디렉터리 구조clouddatabox-data_shoppingclick.png

    2. 상품 구매 데이터 shopping/purchase

    항목설명
    데이터 소개네이버 로그인 사용자들이 어떤 상품을 구매했는지 보여주는 데이터
    (하루 구매 횟수 10회 이상의 상품 카테고리 대상)
    데이터 제공 기간- Standard Data: 전년 상반기(1월~6월), 매년 초 업데이트
    - Insight Data: 2년 전 1월~해당 연도 전월, 매월 업데이트
    (단위: 일간 단위)
    추출 대상기간 동안 구매 이력이 있는 네이버 사용자
    데이터 집계 기준- date(기준일자): 구매 일자
    - device(기기): 사용자가 검색에 사용한 기기 정보 (mobile/pc)
    - gender(성별): 사용자의 성별 (f/m)
    - age(연령대): 5세 단위 (-12/13-18/19-24/25-29/30-34/35-39/40-44/45-49/50-54/55-59/60-64/65-69/70-)
    - loc1(지역1): 주소지 기준 광역시/도
    - loc2(지역2): 주소지 기준 시/군/구
    - cat(상품카테고리): 사용자가 구매한 상품의 대/중/소/세 카테고리
    - count(구매자 수): 기준일자, 기기, 성별, 연령대, 지역, 검색어, 상품 카테고리별로 집계
    샘플 데이터 위치${DATABOX_HOME_DIR}/sample/shopping/purchase
    전체 데이터 위치20년 상반기 데이터인 경우: ${DATABOX_HOME_DIR}/shopping20y1h/shopping/purchase
    디렉터리 구조clouddatabox-data_shoppingpur_ko.png

    3. 상품 클릭 코어커런스 shopping/click_cooccurrence

    항목설명
    데이터 소개네이버 사용자들이 어떤 상품들을 함께 검색하고 클릭했는지 보여주는 데이터
    (주간 클릭 횟수 100회 이상의 검색어/상품 카테고리 대상)
    데이터 제공 기간- Standard Data: 전년 상반기(1월~6월), 매년 초 업데이트
    - Insight Data: 2년 전 1월~해당 연도 전월, 매월 업데이트
    (단위: 주간 단위)
    추출 대상기간 동안 상품 클릭 이력이 있는 네이버 로그인 사용자
    데이터 집계 기준- week(기준일자): 추출 기간의 시작 일자
    - device(기기): 사용자가 검색에 사용한 기기 정보 (mobile/pc)
    - gender(성별): 사용자의 성별 (f/m)
    - age(연령대): 5세 단위 (-12/13-18/19-24/25-29/30-34/35-39/40-44/45-49/50-54/55-59/60-64/65-69/70-)
    - loc1(지역1): 주소지 기준 광역시/도
    - loc2(지역2): 주소지 기준 시/군/구
    - keyword1(유입키워드1): 사용자가 상품 카테고리1을 클릭하기 전에 검색한 키워드
    - cat1(상품카테고리1): 사용자가 클릭한 상품의 대/중/소/세 카테고리
    - keyword2(유입키워드2): 사용자가 상품 카테고리2를 클릭하기 전에 검색한 키워드
    - cat2(상품카테고리2): 사용자가 클릭한 상품의 대/중/소/세 카테고리
    - count(함께 방문한 사용자수): 기준일자(주 단위), 기기, 성별, 연령대, 지역, 검색어1, 상품 카테고리1, 검색어2, 상품 카테고리2별로 집계 (클릭 순서는 고려하지 않음)
    샘플 데이터 위치${DATABOX_HOME_DIR}/sample/shopping/click_cooccurrence
    전체 데이터 위치20년 상반기 데이터인 경우: ${DATABOX_HOME_DIR}/shopping20y1h/shopping/click_cooccurrence
    디렉터리 구조clouddatabox-data_shoppingclickco_ko.png

    4. 상품 구매 코어커런스 shopping/purchase_cooccurrence

    항목설명
    데이터 소개네이버 사용자들이 어떤 상품들을 함께 구매했는지 보여주는 데이터
    (주간 구매 횟수 10회 이상의 상품 카테고리 대상)
    데이터 제공 기간- Standard Data: 전년 상반기(1월~6월), 매년 초 업데이트
    - Insight Data: 2년 전 1월~해당 연도 전월, 매월 업데이트
    (단위: 주간 단위)
    추출 대상기간 동안 구매 이력이 있는 네이버 사용자
    데이터 집계 기준- week(기준일자): 추출 기간의 시작 일자
    - device(기기): 사용자가 검색에 사용한 기기 정보 (mobile/pc)
    - gender(성별): 사용자의 성별 (f/m)
    - age(연령대): 5세 단위 (-12/13-18/19-24/25-29/30-34/35-39/40-44/45-49/50-54/55-59/60-64/65-69/70-)
    - loc1(지역1): 주소지 기준 광역시/도
    - loc2(지역2): 주소지 기준 시/군/구
    - cat1(상품카테고리1): 사용자가 구매한 상품의 대/중/소/세 카테고리
    - cat2(상품카테고리2): 사용자가 구매한 상품의 대/중/소/세 카테고리
    - count(함께 구매한 사용자 수): 기준일자(주 단위), 기기, 성별, 연령대, 지역, 상품 카테고리1, 상품 카테고리2별로 집계
    샘플 데이터 위치${DATABOX_HOME_DIR}/sample/shopping/purchase_cooccurrence
    전체 데이터 위치20년 상반기 데이터인 경우: {DATABOX_HOME_DIR}/shopping20y1h/shopping/purchase_cooccurrence
    디렉터리 구조clouddatabox-data_shoppingpurco_ko.png

    AI 데이터(ai)

    1. 재활용 이미지 ai/clova/iitp_waste_images

    항목설명
    데이터 소개재활용 이미지 수집 및 레이블링
    데이터 활용 예시실제 환경에서의 공산품 데이터를 이용하여 이미지 분류 문제를 풀기 위한 기술 개발
    데이터 명세- 데이터 포맷: jpg 3,000장 (1280720, 7201280), iitp_waste_images_3000_result.csv
    - 레이블링 정보
    1: 일반쓰레기 (기타)
    2: 종이류
    3: 캔 및 고철류
    4: 유리병류
    5: 플라스틱류(PET 포함)
    6: 비닐류
    7: 스티로폼류
    8: 음식류
    데이터 샘플(예시)clouddatabox-data_recycleimage_ko
    전체 데이터 위치${DATABOX_HOME_DIR}/ai/clova/iitp_waste_images

    2. 음식 이미지 ai/clova/naver_food_fixed

    항목설명
    데이터 소개이미지에서 음식 영역을 바운딩 박스로 태깅한 데이터
    데이터 위치${DATABOX_HOME_DIR}/ai/clova/naver_food_fixed
    데이터 활용 예시이미지 안에서 필요한 요소만 추출해 학습시킨 후 문제 해결을 위한 AI 개발
    데이터 명세직접 수집한 이미지
    - 데이터 수: 2,042장
    - 데이터 포맷: jpg 이미지, 각각에 대한 json 파일
    데이터 샘플(예시)clouddatabox-data_foodimage_ko
    전체 데이터 위치${DATABOX_HOME_DIR}/ai/clova/naver_food_fixed

    3. 식당 이미지 ai/clova/externalImageOCR

    항목설명
    데이터 소개표지판, 입간판, 메뉴판, 음식점 간판 등 이미지에 포함된 한글 OCR 어노테이션 데이터(영문, 숫자 포함)
    데이터 활용 예시이미지에서 텍스트를 추출하여 디지털 데이터로 변환하는 기술 개발
    데이터 명세직접 수집한 간판 이미지에 있는 한글, 영문, 숫자 어노테이션 데이터
    - 데이터 수: 1180 장 (표지판(signboard) 197장, 음식점 간판(restaurant) 324장, 메뉴판(menu) 614장, 입간판(standing_signboard) 45장)
    - 데이터 포맷: json, jpg(original image, result image)
    데이터 샘플(json 예시)clouddatabox-data_storeimage_ko
    전체 데이터 위치${DATABOX_HOME_DIR}/ai/clova/externalImageOCR

    4. NLP 실험용 뉴스 데이터 ai/nlp

    항목설명
    데이터 소개네이버 뉴스 서비스에서 수집한 뉴스 기사 내용 내 개체명(이름)을 찾아 그 개체명과 관련한 위키피디아 페이지를 연결한 데이터
    데이터 집계 기준뉴스 제목, 본문, 카테고리로 구성되어 있으며 본문 텍스트 내 개체명 위치가 BIO 태그로 표시되어 있고 ID가 부착되어 있음
    데이터 활용 예시텍스트에서 개체명(이름)과 개체의 정보(이름에 해당하는 위키피디아)를 연결하는 기술을 개발 가능 (Entity Linking)
    데이터 샘플(예시)clouddatabox-data_newsdata_ko
    전체 데이터 위치${DATABOX_HOME_DIR}/ai/nlp

    이 문서가 도움이 되었습니까?

    Changing your password will log you out immediately. Use the new password to log back in.
    First name must have atleast 2 characters. Numbers and special characters are not allowed.
    Last name must have atleast 1 characters. Numbers and special characters are not allowed.
    Enter a valid email
    Enter a valid password
    Your profile has been successfully updated.