# [모듈 1.1] 데이터 준비

이 노트북에서는 아래와 같이 데이터 준비를 합니다.
- 노트북에서 사용할 변수를 설정합니다.
- 전처리 스텝에서 사용할 원본 데이터 세트를 S3에 업로딩 합니다.
- 훈련 스텝에서 개별적으로 사용할 전처리된 데이터 세트를 S3에 업로딩 합니다.

---

## 0.세이지 메이커에 연결된 디폴트 S3 버킷 이름 가져오기

- S3 디폴트 버킷을 가져옵니다. 다른 버킷 이름을 기술하셔도 됩니다.

In [1]:
import sagemaker
import os
import pandas as pd

DEFAULT_BUCKET = True
if DEFAULT_BUCKET:
 sagemaker_session = sagemaker.session.Session()
 bucket = sagemaker_session.default_bucket()
else:
 bucket = "<사용자 버켓 이름>"
 
print("bucket: ", bucket)

bucket: sagemaker-us-east-1-051065130547


## 1. 노트북 변수 설정
---

In [2]:
# 프로젝트 변수
project_prefix = 'sagemaker-webinar-pipeline-advanced'

# 원본 데이터 위치 
dataset_prefix = f'{project_prefix}/input'
# 전처리 결과 데이터 위치
preproc_dataset_prefix = f'{project_prefix}/preporc'

# 노트북안에서 데이터 위치
data_dir = '../../data/raw'
preproc_data_dir = 'preproc'

claim_data_path = f"{data_dir}/claims.csv"
customers_data_path = f"{data_dir}/customers.csv"

train_data_path = f"{preproc_data_dir}/train.csv"
test_data_path = f"{preproc_data_dir}/test.csv"


# S3에 저장되는 데이터의 기본 폴더 위치
input_data_uri = f"s3://{bucket}/{dataset_prefix}"
# 전처리 데이터의 기본 폴더 위치
input_preproc_data_uri = f"s3://{bucket}/{preproc_dataset_prefix}"


In [3]:
print("claim_data_path: ", claim_data_path)
print("customers_data_path: ", customers_data_path)
print("train_data_path: ", train_data_path)
print("test_data_path: ", test_data_path)
print("input_data_uri: ", input_data_uri)
print("input_preproc_data_uri: ", input_preproc_data_uri)

claim_data_path: ../../data/raw/claims.csv
customers_data_path: ../../data/raw/customers.csv
train_data_path: preproc/train.csv
test_data_path: preproc/test.csv
input_data_uri: s3://sagemaker-us-east-1-051065130547/sagemaker-webinar-pipeline-advanced/input
input_preproc_data_uri: s3://sagemaker-us-east-1-051065130547/sagemaker-webinar-pipeline-advanced/preporc


## 2. S3에 원본 데이터 세트 업로딩
---

이제 데이터 세트인 claims.csv, customers.csv을 디폴트 버킷으로 업로드합니다. 
- `input_data_uri` 변수를 통해 데이터셋의 위치를 저장하고, 추후 사용합니다.

In [4]:
claims_data_uri = sagemaker.s3.S3Uploader.upload(
 local_path=claim_data_path, 
 desired_s3_uri=input_data_uri, 
)
print("claims_data_uri in S3: \n", claims_data_uri)

customers_data_uri = sagemaker.s3.S3Uploader.upload(
 local_path=customers_data_path, 
 desired_s3_uri=input_data_uri, 
)
print("customers_data_uri in S3: \n", customers_data_uri)



claims_data_uri in S3: 
 s3://sagemaker-us-east-1-051065130547/sagemaker-webinar-pipeline-advanced/input/claims.csv
customers_data_uri in S3: 
 s3://sagemaker-us-east-1-051065130547/sagemaker-webinar-pipeline-advanced/input/customers.csv


## 3. S3에 전처리 데이터 세트 업로딩
---

In [5]:
train_preproc_data_uri = sagemaker.s3.S3Uploader.upload(
 local_path=train_data_path, 
 desired_s3_uri=input_preproc_data_uri, 
)


test_preproc_data_uri = sagemaker.s3.S3Uploader.upload(
 local_path=test_data_path, 
 desired_s3_uri=input_preproc_data_uri, 
)
print("train_preproc_data_uri: \n", train_preproc_data_uri)
print("test_preproc_data_uri: \n", test_preproc_data_uri)



train_preproc_data_uri: 
 s3://sagemaker-us-east-1-051065130547/sagemaker-webinar-pipeline-advanced/preporc/train.csv
test_preproc_data_uri: 
 s3://sagemaker-us-east-1-051065130547/sagemaker-webinar-pipeline-advanced/preporc/test.csv


In [6]:
! aws s3 ls {train_preproc_data_uri}
! aws s3 ls {test_preproc_data_uri}

2022-03-21 12:16:19 682602 train.csv
2022-03-21 12:16:20 171439 test.csv


## 4.변수 저장
---
현재 저장되어 있는 변수를 삭제 합니다.

In [7]:
%store -z

변수가 저장이 되어 있는지 확인 합니다.

In [8]:
%store project_prefix
%store input_data_uri
%store input_preproc_data_uri

%store claims_data_uri
%store customers_data_uri

%store train_preproc_data_uri
%store test_preproc_data_uri


%store bucket



Stored 'project_prefix' (str)
Stored 'input_data_uri' (str)
Stored 'input_preproc_data_uri' (str)
Stored 'claims_data_uri' (str)
Stored 'customers_data_uri' (str)
Stored 'train_preproc_data_uri' (str)
Stored 'test_preproc_data_uri' (str)
Stored 'bucket' (str)
