# Tensorflow V2로 학습한 모델을 SageMaker로 배포하기

본 노트북에서는 학습된 모델을 SageMaker endpoint로 배포하는 프로세스를 살펴봅니다. [첫번째 노트북](1.mnist_train.ipynb)에서 매직명령어 %store% 로 저장했던 `model_data`의 모델 아티팩트를 로드하여 사용합니다. (만약 이전에 생성한 모델 아티팩트가 없다면 공개 S3 버킷에서 해당 파일을 다운로드하게 됩니다.)

In [None]:
import sagemaker 
sagemaker.__version__

In [None]:
# setups

import os
import json

import sagemaker
from sagemaker.tensorflow import TensorFlowModel
from sagemaker import get_execution_role, Session
import boto3

# Get global config
with open('code/config.json', 'r') as f:
    CONFIG=json.load(f)

sess = Session()
role = get_execution_role()

%store -r tf_mnist_model_data


# store -r 시도 후 모델이 없는 경우 publc s3 bucket에서 다운로드
try: 
    tf_mnist_model_data
except NameError:
    import json
    # copy a pretrained model from a public public to your default bucket
    s3 = boto3.client('s3')
    bucket = CONFIG['public_bucket']
    key = 'datasets/image/MNIST/model/tensorflow-training-2020-11-20-23-57-13-077/model.tar.gz'
    s3.download_file(bucket, key, 'model.tar.gz')
    tf_mnist_model_data = sess.upload_data(
        path='model.tar.gz', bucket=sess.default_bucket(), key_prefix='model/tensorflow')
    os.remove('model.tar.gz')



In [None]:
print(tf_mnist_model_data)

## TensorFlow Model Object

SageMaker에서 제공하는 `TensorFlowModel` 클래스는 여러분의 모델 아티팩트를 이용하여 추론을 실행하는 환경을 정의하도록 해 줍니다. 이는 [첫번째 노트북](1.mnist_train.ipynb)에서 `TensorFlow` estimator를 정의했던 것과 유사한 방식으로, 학습된 모델을 SageMaker에서 호스팅하도록 도커 이미지를 정의하는 하이레벨 API입니다. 

해당 API를 통해 모델을 추론할 환경을 설정하고 나면 SageMaker에서 관리하는 EC2 인스턴스에서 SageMaker Endpoint 형태로 실행할 수 있습니다. SageMaker Endpoint는 학습된 모델을 RESTful API를 통해 추론하도록 하는 컨테이너기반 환경입니다. 

`TensorFlowModel` 클래스를 초기화할 때 사용되는 파라미터들은 다음과 같습니다.
- role: AWS 리소스 사용을 위한 An IAM 역할(role) 
- model_data: 압축된 모델 아티팩트가 있는 S3 bucket URI. local mode로 실행시에는 로컬 파일경로 사용가능함
- framework_version: 사용하 프레임워크의 버전
- py_version: 파이썬 버전

In [None]:

model = TensorFlowModel(
    role=role,
    model_data=tf_mnist_model_data,
    framework_version='2.3.1'
)


## 추론 컨테이너 실행

`TensorFlowModel` 클래스가 초기화되고 나면 `deploy`메소드를 이용하여 호스팅용 컨테이너를 실행할 수 있습니다.  

`deploy`메소드 실행시 사용되는 파라미터들은 다음과 같습니다.
- initial_instance_count: 호스팅 서비스에 사용할 SageMaker 인스턴스의 숫자 
- instance_type: 호스팅 서비스를 실행할 SageMaker 인스턴스 타입. 이 값을 `local` 로 선택하면 로컬 인스턴스(SageMaker Jupyter notebook)에 호스팅 컨테이너가 실행됩니다. local mode는 주로 디버깅 단계에서 사용하게 됩니다. 

<span style="color:red"> 주의 : SageMaker Studio 환경에서는 local mode 가 지원되지 않습니다. </span>

In [None]:
# from sagemaker.serializers import JSONSerializer
# from sagemaker.deserializers import JSONDeserializer

instance_type='ml.c4.xlarge'

predictor = model.deploy(
    initial_instance_count=1,
    instance_type=instance_type,
    )

## SageMaker endpoint를 이용한 예측 실행

`model.deploy(...)`에 의해 리턴된 `Predictor` 인스턴스를 이용하여 예측 요청을 endpoint에 보낼 수 있습니다. 이 경우 모델은 정규화 된 배치 이미지를 받습니다.


In [None]:
# use some dummy inputs
import numpy as np

dummy_inputs = {
    'instances': np.random.rand(4, 28, 28, 1).tolist()
}

res = predictor.predict(dummy_inputs)
print(res)

입출력 데이터 포맷이 [TensorFlow Serving REST API](https://www.tensorflow.org/tfx/serving/api_rest)의 `Predict`에서 정의된 request, respoinst 포맷과 일치하는 지 확인합니다. 

예를 들어 본 코드에서 `dummy_inputs`은 `instances`를 키로 하여 배열의 형태로 전달하고 있습니다. 또한 입력데이터는 batch dimension을 포함한 4차원 배열로 구성되어 있습니다.

In [None]:
# # Uncomment the following lines to see an example that cannot be processed by the endpoint

# dummy_data = {
#    'instances': np.random.rand(28, 28, 1).tolist()
# }
# print(predictor.predict(dummy_data))

이제 실제 MNIST 테스트 데이터로 엔드포인트를 호출해 봅니다. 여기서는 MNIST 데이터를 다운로드하고 normalize하기 위해 `code.utils` 의 헬퍼함수를 사용하였습니다.

In [None]:
from utils.mnist import mnist_to_numpy, normalize
import random
import matplotlib.pyplot as plt
%matplotlib inline

data_dir = '/tmp/data'
X, _ = mnist_to_numpy(data_dir, train=False)

# randomly sample 16 images to inspect
mask = random.sample(range(X.shape[0]), 16)
samples = X[mask]

# plot the images 
fig, axs = plt.subplots(nrows=1, ncols=16, figsize=(16, 1))

for i, splt in enumerate(axs):
    splt.imshow(samples[i])

모델이 nomalized 된 입력을 받게 되어있으므로 normalize 처리 후 엔디포인트를 호출합니다. 

In [None]:
samples = normalize(samples, axis=(1, 2))
predictions = predictor.predict(
    np.expand_dims(samples, 3) # add channel dim
)['predictions'] 

# softmax to logit
predictions = np.array(predictions, dtype=np.float32)
predictions = np.argmax(predictions, axis=1)


In [None]:
print("Predictions: ", predictions.tolist())

## (Optional) 새로운 환경에서 추론 endpoint 호출

SageMaker는 배포된 endpoint를 호출하는 `ReatTimePredictor` 클래스를 제공합니다. 이는 별도의 새로운 환경에서 endpoint를 호출하는 방식을 예제로 보여줍니다.

먼저 생성된 endpoint의 이름을 기억합니다. 여기서는 앞서 생성한 predictor객체로부터 가져오겠습니다.

In [None]:
my_endpoint = predictor.endpoint_name
print(my_endpoint)

`endpoint_name`을 이용하여 `ReatTimePredictor` 오브젝트를 생성합니다. 

In [None]:
from sagemaker.predictor import  Predictor 
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer

my_predictor = Predictor(endpoint_name=my_endpoint, 
                         sagemaker_session=sess, 
                         serializer=JSONSerializer(), 
                         deserializer=JSONDeserializer())

이제 predict 함수를 이용하여 추론을 요청할 수 있습니다. 이전 코드에서 사용했던 dummy_inputs을 테스트용 데이터로 이용하겠습니다.

In [None]:
# dummy_inputs = {
#     'instances': np.random.rand(4, 28, 28, 1).tolist()
# }

my_predictor.predict(dummy_inputs)

추론 실행을 위해 boto3 SDK를 이용할 수도 있습니다. 아래 코드를 참조합니다.

In [None]:
import boto3
sm_runtime = boto3.Session().client(service_name='sagemaker-runtime',region_name=sess.boto_region_name)

response = sm_runtime.invoke_endpoint(EndpointName=my_endpoint, 
                                      ContentType='application/json', 
                                      Accept='application/json',
                                      Body=json.dumps(dummy_inputs))

json.loads(response.get('Body').read().decode())

## 리소스 삭제

endpoint의 사용이 끝나면 추가과금을 막기 위해 endpoint를 삭제합니다. 

In [None]:
predictor.delete_endpoint()

---

## (Optional) Hander debugging in local mode

본 섹션에서는 Tensorflow Serving container에 hander 코드를 추가하고 테스트하는 방법을 살펴보겠습니다. 

먼저 로컬모드에서 handler를 테스트하기 위해 S3의 model.tar.gz파일을 로컬로 복사합니다.

In [None]:
# !rm -Rf model_with_handler

In [None]:
!mkdir -p model_with_handler/model
!mkdir -p model_with_handler/code
!aws s3 cp {tf_mnist_model_data} model_with_handler/model.tar.gz
!tar -zvxf model_with_handler/model.tar.gz -C model_with_handler/model
!rm model_with_handler/model.tar.gz

### hanlder 코드 생성

다음은 이 model.tar.gz에 request handler 코드를 추가하겠습니다. Tensorflow serving container v1.11부터 사용되고 있는 model.tar.gz 구조는 다음과 같습니다. (프레임워크의 종류와 버전별로 여러가지 방식이 가능합니다. Tensorflow구성과 관련된 내용은 https://github.com/aws/sagemaker-tensorflow-serving-container 를 참조합니다. 해당경로의 가이드를 통해 inference.py 파일의 생성방법 또한 참고할 수 있습니다.)

```
    model.tar.gz/
    |- model
    |   |--[model_version_number]
    |       |--variables
    |       |--saved_model.pb
    |- code
        |--inference.py
        |--requirements.txt
```

다음 셀의 코드를 통해 커스텀 inference.py 파일을 생성합니다. Serving container에서 Request를 받아 디코딩하고 추론 Response에서 content 부분만 추출하는 간단한 handler입니다. (디버깅 확인 목적으로 위해 간단한 print문을 넣었습니다.)


In [None]:
%%writefile model_with_handler/code/inference.py

import json

def input_handler(data, context):
    # decode request payload
    payload = data.read().decode('utf-8')
    print("========== my debugging message ===============")
    print(payload[:30])
    return  payload
    

def output_handler(response, context):
    # Serialize the prediction result
    response_content_type = context.accept_header
    prediction = response.content

    return prediction, response_content_type



방금 생성한 handler를 포함하여 `model.tar.gz` 파일을 다시 생성합니다.

In [None]:
%%sh
cd model_with_handler
tar -czvf model.tar.gz model code

### 로컬모드 테스트

로컬모드로 컨테이너를 실행하기에 앞서 기존 실행중인 로컬 컨테이너가 있다면 중지합니다. (기존 로컬모드로 8080 포트를 사용하는 Docker 컨테이너를 삭제합니다.)


In [None]:
import os
os.system("docker container ls | grep 8080 | awk '{print $1}' | xargs docker container rm -f")


전 단계에서 생성한 model.tar.gz 로컬파일을 이용하여 로컬모드로 Tensorflow 추론 컨테이너를 실행합니다.

In [None]:
local_model = TensorFlowModel(role=role,
                              model_data='file://model_with_handler/model.tar.gz',
                              framework_version='2.3.1'
                              )

instance_type='local'

local_predictor = local_model.deploy(initial_instance_count=1,
                                     instance_type=instance_type,
                                     )

로컬 추론 컨테이너로 추론 요청을 보냅니다.

In [None]:
res = local_predictor.predict(dummy_inputs)
print(res)

사용자 메시지가 출력되었습니다. 유사한 방식으로 다른 로그를 출력해 봅니다.

### 로컬 리소스 삭제

테스트가 완료되면 로컬의 컨테이너를 삭제합니다.

In [None]:
import os
os.system("docker container ls | grep 8080 | awk '{print $1}' | xargs docker container rm -f")
