# [모듈 3.1] 데이터 준비

이 노트북에서는 아래와 같이 데이터 준비를 합니다.
- 노트북에서 사용할 변수를 설정합니다.
- 전처리 스텝에서 사용할 원본 데이터 세트를 S3에 업로딩 합니다.
- 이후 노트북에서 사용한 변수 저장

---

## 0.세이지 메이커에 연결된 디폴트 S3 버킷 이름 가져오기

- S3 디폴트 버킷을 가져옵니다. 다른 버킷 이름을 기술하셔도 됩니다.

In [8]:
import sagemaker
import os
import pandas as pd

DEFAULT_BUCKET = True
if DEFAULT_BUCKET:
    sagemaker_session = sagemaker.session.Session()
    bucket = sagemaker_session.default_bucket()
else:
    bucket = "<사용자 버켓 이름>"
    
print("bucket: ", bucket)

bucket:  sagemaker-us-east-1-051065130547


## 1. 노트북 변수 설정
---

In [9]:
# 프로젝트 변수
project_prefix = 'sagemaker-webinar-pipeline-base'

# 원본 데이터 위치 
dataset_prefix = f'{project_prefix}/input'

# 노트북안에서 데이터 위치
data_dir = '../data/raw'


claim_data_path = f"{data_dir}/claims.csv"
customers_data_path = f"{data_dir}/customers.csv"


# S3에 저장되는 데이터의 기본 폴더 위치
input_data_uri = f"s3://{bucket}/{dataset_prefix}"


In [10]:
print("claim_data_path: ", claim_data_path)
print("customers_data_path: ", customers_data_path)
print("input_data_uri: ", input_data_uri)


claim_data_path:  ../data/raw/claims.csv
customers_data_path:  ../data/raw/customers.csv
input_data_uri:  s3://sagemaker-us-east-1-051065130547/sagemaker-webinar-pipeline-base/input


## 2. S3에 원본 데이터 세트 업로딩
---

이제 데이터 세트인 claims.csv, customers.csv을 디폴트 버킷으로 업로드합니다. 
- `input_data_uri` 변수를 통해 데이터셋의 위치를 저장하고, 추후 사용합니다.

In [11]:
claims_data_uri = sagemaker.s3.S3Uploader.upload(
    local_path=claim_data_path, 
    desired_s3_uri=input_data_uri,    
)
print("claims_data_uri in S3: \n", claims_data_uri)

customers_data_uri = sagemaker.s3.S3Uploader.upload(
    local_path=customers_data_path, 
    desired_s3_uri=input_data_uri,    
)
print("customers_data_uri in S3: \n", customers_data_uri)



claims_data_uri in S3: 
 s3://sagemaker-us-east-1-051065130547/sagemaker-webinar-pipeline-base/input/claims.csv
customers_data_uri in S3: 
 s3://sagemaker-us-east-1-051065130547/sagemaker-webinar-pipeline-base/input/customers.csv


## 4.변수 저장
---
현재 저장되어 있는 변수를 삭제 합니다.

In [12]:
%store -z

변수가 저장이 되어 있는지 확인 합니다.

In [13]:
%store 

Stored variables and their in-db values:


다음 노트북에서 사용할 변수를 저장합니다.

In [14]:
%store project_prefix
%store input_data_uri

%store claims_data_uri
%store customers_data_uri

%store bucket



Stored 'project_prefix' (str)
Stored 'input_data_uri' (str)
Stored 'claims_data_uri' (str)
Stored 'customers_data_uri' (str)
Stored 'bucket' (str)
