# SageMaker Tensorflow를 이용한 MNIST 학습

MNIST는 필기 숫자 분류하는 문제로 이미지 처리의 테스트용으로 널리 사용되는 데이터 세트입니다. 28x28 픽셀 그레이스케일로 70,000개의 손으로 쓴 숫자 이미지가 레이블과 함께 구성됩니다. 데이터 세트는 60,000개의 훈련 이미지와 10,000개의 테스트 이미지로 분할됩니다. 0~9까지 10개의 클래스가 있습니다. 이 튜토리얼은 SageMaker에서 Tensorflow V2를 이용하여 MNIST 분류 모델을 훈련하는 방법을 보여줍니다.


In [1]:
import sagemaker 
sagemaker.__version__

'2.45.0'

In [2]:
import os
import json

import sagemaker
from sagemaker.tensorflow import TensorFlow
from sagemaker import get_execution_role

sess = sagemaker.Session()

role = get_execution_role()

output_path='s3://' + sess.default_bucket() + '/tensorflow/mnist'

## TensorFlow Estimator

Tensorflow 클래스를 사용하면 SageMaker의 컨테이너 환경에서 학습 스크립트를 실행할 수 있습니다. 
다음 파라미터 설정을 통해 환경을 셋업합니다.


- entry_point: 트레이닝 컨테이너에서 신경망 학습을 위해 사용하는 사용자 정의 파이썬 파일. 다음 섹션에서 다시 논의됩니다.
- role: AWS 자원에 접근하기 위한 IAM 역할(role) 
- instance_type: 스크립트를 실행하는 SAGEMAKER 인스턴스 유형. 본 노트북을 실행하기 위해 사용중인 SageMaker 인스턴스에서 훈련 작업을 실행하려면`local`로 설정하십시오.
- model_dir: 학습중에 체크 포인트 데이터와 모델을 내보내는 S3 Bucket URI. (default : None). 이 매개변수가 스크립트에 전달되는 것을 막으려면 `model_dir`=False 로 설정하 수 있습니다.
- instance count: 학습작업이 실행될 인스턴스의 갯수. 분산 학습을 위해서는 1 이상의 값이 필요합니다. 
- output_path: 학습의 결과물 (모델 아티팩트와 out 파일)을 내보내는 S3 Bucket URI. 
- framework_version: 사용하는 프레임워크의 버전
- py_version: 파이썬 버전

보다 자세한 내용은 [the API reference](https://sagemaker.readthedocs.io/en/stable/api/training/estimators.html#sagemaker.estimator.EstimatorBase)를 참조합니다.



## 학습을 위한 entry point 스트립트 작성

`entrypoint`를 통해 Tensorflow 모델을 학습하기 위한 Python 코드를 Enstimator (Tensroflow 클래스)에 제공합니다. 

SageMaker Tensorflow Estimator는 AWS의 관리환경으로 Tensorflow 실행환경이 저장된 도커 이미지를 가져올 것입니다. Estimator 클래스를 초기화할 때 사용한 파라미터 설정에 따라 스크립트를 실행합니다. 

실행되는 훈련 스크립트는 Amazon SageMaker 외부에서 실행될 수있는 훈련 스크립트와 매우 유사하지만 교육 이미지에서 제공하는 환경 변수에 액세스 하는 설정 등이 추가될 수 있습니다. 사용가능한 환경변수의 리스트를 확인하려면 다음 리소스 [the short list of environment variables provided by the SageMaker service](https://sagemaker.readthedocs.io/en/stable/frameworks/mxnet/using_mxnet.html?highlight=entry%20point)를 참고하십시오. 환경변수의 풀셋은 다음 링크 [the complete list of environment variables](https://github.com/aws/sagemaker-training-toolkit/blob/master/ENVIRONMENT_VARIABLES.md)에서 확인할 수 있습니다.

본 예제에서는 `code/train.py` 스크립트를 사용합니다.


In [3]:
!pygmentize 'code/train.py'

[34mfrom[39;49;00m [04m[36m__future__[39;49;00m [34mimport[39;49;00m print_function

[34mimport[39;49;00m [04m[36margparse[39;49;00m
[34mimport[39;49;00m [04m[36mlogging[39;49;00m
[34mimport[39;49;00m [04m[36mos[39;49;00m
[34mimport[39;49;00m [04m[36mjson[39;49;00m
[34mimport[39;49;00m [04m[36mgzip[39;49;00m
[34mimport[39;49;00m [04m[36mnumpy[39;49;00m [34mas[39;49;00m [04m[36mnp[39;49;00m
[34mimport[39;49;00m [04m[36mtraceback[39;49;00m

[34mimport[39;49;00m [04m[36mtensorflow[39;49;00m [34mas[39;49;00m [04m[36mtf[39;49;00m
[34mfrom[39;49;00m [04m[36mtensorflow[39;49;00m[04m[36m.[39;49;00m[04m[36mkeras[39;49;00m[04m[36m.[39;49;00m[04m[36mlayers[39;49;00m [34mimport[39;49;00m Dense, Flatten, Conv2D
[34mfrom[39;49;00m [04m[36mtensorflow[39;49;00m[04m[36m.[39;49;00m[04m[36mkeras[39;49;00m [34mimport[39;49;00m Model


logging.basicConfig(level=logging.DEBUG)

[37m# Define the model object[39;49;00m


### 하이퍼파리미터 설정

추가로, Tensorflow Estimator는 명령라인 매개변수로 학습작업에서 사용할 하이퍼파라미터를 전달합니다.

 Note: SageMaker Studio 에서는 local mode가 지원되지 않습니다. 

In [11]:
# set local_mode if you want to run the training script on the machine that runs this notebook

instance_type='ml.c4.xlarge'
 
est = TensorFlow(
 entry_point='train.py',
 source_dir='code', # directory of your training script
 role=role,
 framework_version='2.3.1',
 model_dir=False, # don't pass --model_dir to your training script
 py_version='py37',
 instance_type=instance_type,
 instance_count=1,
 output_path=output_path,
 hyperparameters={
 'batch-size':512,
 'epochs':10,
 'learning-rate': 1e-3,
 'beta_1' : 0.9,
 'beta_2' : 0.999
 
 }
)


학습 컨테이너는 아래와 같은 방식으로 하이퍼파라미터를 전달하고 스크립트를 실행할것입니다. 

```
python train.py --batch-size 32 --epochs 10 --learning-rate 0.001
 --beta_1 0.9 --beta_2 0.999
```

## 학습 & 테스트 데이터 채널 지정 

Tensorflow Estimator에게 학습 및 테스트 데이터셋을 찾을 수있는 위치를 알려야합니다. S3 버킷에 대한 링크 또는 로컬 모드를 사용하는 경우 로컬 파일 시스템의 경로가 될 수 있습니다. 이 예에서는 공용 S3 버킷에서 MNIST 데이터를 다운로드하고 기본 버킷에 업로드합니다.

In [12]:
import logging
import boto3
from botocore.exceptions import ClientError
# Download training and testing data from a public S3 bucket

def download_from_s3(data_dir='/tmp/data', train=True):
 """Download MNIST dataset and convert it to numpy array
 
 Args:
 data_dir (str): directory to save the data
 train (bool): download training set
 
 Returns:
 None
 """
 
 if not os.path.exists(data_dir):
 os.makedirs(data_dir)
 
 if train:
 images_file = "train-images-idx3-ubyte.gz"
 labels_file = "train-labels-idx1-ubyte.gz"
 else:
 images_file = "t10k-images-idx3-ubyte.gz"
 labels_file = "t10k-labels-idx1-ubyte.gz"
 
 with open('code/config.json', 'r') as f:
 config = json.load(f)

 # download objects
 s3 = boto3.client('s3')
 bucket = config['public_bucket']
 for obj in [images_file, labels_file]:
 key = os.path.join("datasets/image/MNIST", obj)
 dest = os.path.join(data_dir, obj)
 if not os.path.exists(dest):
 s3.download_file(bucket, key, dest)
 return


download_from_s3('/tmp/data', True)
download_from_s3('/tmp/data', False)


In [13]:
# upload to the default bucket

prefix = 'mnist'
bucket = sess.default_bucket()
loc = sess.upload_data(path='/tmp/data', bucket=bucket, key_prefix=prefix)

channels = {
 "training": loc,
 "testing": loc
}



학습 실행시 `channels` 딕셔너리는 컨테이너 내에 `SM_CHANNEL_` 형태의 환경 변수를 만듭니다.

본 사례에서는 `SM_CHANNEL_TRAINING`과 `SM_CHANNEL_TESTING` 이라는 이름으로 생성될 것입니다. `code/train.py` 에서 해당 값을 어떻게 참조하는지 살펴보십시오. 보다 자세한 내용은 [SM_CHANNEL_{channel_name}](https://github.com/aws/sagemaker-training-toolkit/blob/master/ENVIRONMENT_VARIABLES.md#sm_channel_channel_name)를 참조합니다.

필요시 다음과 같이 검증 채널을 추가할 수 있습니다.
```
channels = {
 'training': train_data_loc,
 'validation': val_data_loc,
 'test': test_data_loc
 }
```
위 코드에 의해서는 다음 채널이 스크립트에서 사용가능하게 될 것입니다. 
`SM_CHANNEL_VALIDATION`.

## SageMaker 학습작업 실행

이제 훈련 컨테이너에는 교육용 스크립트를 실행할 수 있습니다. fit 명령을 호출하여 컨테이너를 시작할 수 있습니다


In [14]:
est.fit(inputs=channels)

2021-07-16 13:52:08 Starting - Starting the training job...
2021-07-16 13:52:32 Starting - Launching requested ML instancesProfilerReport-1626443528: InProgress
...
2021-07-16 13:53:07 Starting - Preparing the instances for training.........
2021-07-16 13:54:33 Downloading - Downloading input data...
2021-07-16 13:54:57 Training - Downloading the training image..[34m2021-07-16 13:55:19.238815: W tensorflow/core/profiler/internal/smprofiler_timeline.cc:460] Initializing the SageMaker Profiler.[0m
[34m2021-07-16 13:55:19.249118: W tensorflow/core/profiler/internal/smprofiler_timeline.cc:105] SageMaker Profiler is not enabled. The timeline writer thread will not be started, future recorded events will be dropped.[0m
[34m2021-07-16 13:55:19.630437: W tensorflow/core/profiler/internal/smprofiler_timeline.cc:460] Initializing the SageMaker Profiler.[0m
[34m2021-07-16 13:55:23,655 sagemaker-training-toolkit INFO Imported framework sagemaker_tensorflow_container.training[0m
[34m2021-0

## 저장된 모델 데이터 확인 

이제 교육이 완료되면 모델 아티팩트가 `output_path`에 저장됩니다.

In [None]:
tf_mnist_model_data = est.model_data
print("Model artifact saved at:\n", tf_mnist_model_data)


이제 현재 노트북 커널에 변수 `model_data`를 저장합니다. 다음 노트북에서 모델 아티팩트를 검색하고 SageMaker 엔드 포인트에 배포하는 방법을 배우게됩니다.


In [45]:
%store tf_mnist_model_data

Stored 'tf_mnist_model_data' (str)


## 학습컨테이너에서 실행하기 전에 스크립트를 테스트하고 디버깅하기 

앞서 사용한 `train.py`는 테스트가 완료된 코드이며, 바로 학습 컨테이너에서 실행할 수 있습니다. 하지만 해당 스크립트를 개발할 때에는, SageMaker로 보내기 전에 로컬 환경에서 컨테이너 환경을 시뮬레이션하고 테스트해야할 수 있습니다. 컨테이너 환경에서 테스트와 디버깅을 하는 것이 번거롭다면 다음과 같은 코드를 참조하여 활용할 수 있습니다.

In [46]:
!pygmentize code/test_train.py

[34mfrom[39;49;00m [04m[36mtrain[39;49;00m [34mimport[39;49;00m train, parse_args

[34mimport[39;49;00m [04m[36msys[39;49;00m
[34mimport[39;49;00m [04m[36mos[39;49;00m
[34mimport[39;49;00m [04m[36mboto3[39;49;00m
[34mimport[39;49;00m [04m[36mjson[39;49;00m

dirname = os.path.dirname(os.path.abspath([31m__file__[39;49;00m))

[34mwith[39;49;00m [36mopen[39;49;00m(os.path.join(dirname, [33m"[39;49;00m[33mconfig.json[39;49;00m[33m"[39;49;00m), [33m"[39;49;00m[33mr[39;49;00m[33m"[39;49;00m) [34mas[39;49;00m f:
 CONFIG = json.load(f)
 
[34mdef[39;49;00m [32mdownload_from_s3[39;49;00m(data_dir=[33m'[39;49;00m[33m/tmp/data[39;49;00m[33m'[39;49;00m, train=[34mTrue[39;49;00m):
 [33m"""Download MNIST dataset and convert it to numpy array[39;49;00m
[33m Args:[39;49;00m
[33m data_dir (str): directory to save the data[39;49;00m
[33m train (bool): download training set[39;49;00m
[33m Returns:[39;49;00m
[33m tuple of images and labe

In [the next notebook](get_started_mnist_deploy.ipynb) you will see how to deploy your 
trained model artifacts to a SageMaker endpoint. 