# Amazon SageMaker での AutoGluon-Tabular の活用

[AutoGluon](https://github.com/awslabs/autogluon) は高精度な機械学習モデル構築を自動化します。数行のコードによって、テーブル、画像、テキストなどのデータに対して、精度の良い深層学習モデルを学習し、デプロイすることができます。

このノートブックでは、Amazon SageMaker で、独自コンテナを用いてAutoGluon-Tabular を使用する方法をお伝えします。

## 準備

このノートブックでは、`conda_mxnet_p36` カーネルを使用します。

In [None]:
# Make sure docker compose is set up properly for local mode
!./setup.sh

In [None]:
import os
import boto3
import sagemaker
from time import sleep
from collections import Counter
import numpy as np
import pandas as pd
from sagemaker import get_execution_role, local, Model, utils, s3
from sagemaker.estimator import Estimator
from sagemaker.predictor import Predictor
from sagemaker.serializers import CSVSerializer
from sagemaker.deserializers import StringDeserializer
from sklearn.metrics import accuracy_score, classification_report
from IPython.core.display import display, HTML
from IPython.core.interactiveshell import InteractiveShell

# Print settings
InteractiveShell.ast_node_interactivity = "all"
pd.set_option('display.max_columns', 500)
pd.set_option('display.max_rows', 10)

# Account/s3 setup
session = sagemaker.Session()
local_session = local.LocalSession()
bucket = session.default_bucket()
prefix = 'sagemaker/autogluon-tabular'
region = session.boto_region_name
role = get_execution_role()
client = session.boto_session.client(
 "sts", region_name=region, endpoint_url=utils.sts_regional_endpoint(region)
 )
account = client.get_caller_identity()['Account']

registry_uri_training = sagemaker.image_uris.retrieve('mxnet', region, version= '1.6.0', py_version='py3', instance_type='ml.m5.2xlarge', image_scope='training')
registry_uri_inference = sagemaker.image_uris.retrieve('mxnet', region, version= '1.6.0', py_version='py3', instance_type='ml.m5.2xlarge', image_scope='inference')
ecr_uri_prefix = account +'.'+'.'.join(registry_uri_training.split('/')[0].split('.')[1:])

### Docker イメージのビルド

学習用と推論用のそれぞれのコンテナイメージをビルドし、Amazon Elastic Container Repository (ECR) へアップロードします。

In [None]:
training_algorithm_name = 'autogluon-sagemaker-training'
inference_algorithm_name = 'autogluon-sagemaker-inference'

In [None]:
!/bin/bash ./container-training/build_push_training.sh {account} {region} {training_algorithm_name} {ecr_uri_prefix} {registry_uri_training.split('/')[0].split('.')[0]} {registry_uri_training}
!/bin/bash ./container-inference/build_push_inference.sh {account} {region} {inference_algorithm_name} {ecr_uri_prefix} {registry_uri_training.split('/')[0].split('.')[0]} {registry_uri_inference}

### データの取得

このサンプルでは、ダイレクトマーケティングの提案を受け入れるかどうかを二値分類で予測するモデルを開発します。そのためのデータをダウンロードし、学習用データとテスト用データへ分割します。AutoGluon では K -交差検証を自動で行うため、事前に検証データを分割する必要はありません。データをダウンロードし、学習用とテスト用へデータを分割します。

In [None]:
# Download and unzip the data
!aws s3 cp --region {region} s3://sagemaker-sample-data-{region}/autopilot/direct_marketing/bank-additional.zip .
!unzip -qq -o bank-additional.zip
!rm bank-additional.zip

local_data_path = './bank-additional/bank-additional-full.csv'
data = pd.read_csv(local_data_path)

# Split train/test data
train = data.sample(frac=0.7, random_state=42)
test = data.drop(train.index)

# Split test X/y
label = 'y'
y_test = test[label]
X_test = test.drop(columns=[label])

##### データの確認

In [None]:
train.head(3)
train.shape

test.head(3)
test.shape

X_test.head(3)
X_test.shape


Amazon S3 へデータをアップロードします。

In [None]:
train_file = 'train.csv'
train.to_csv(train_file,index=False)
train_s3_path = session.upload_data(train_file, key_prefix='{}/data'.format(prefix))

test_file = 'test.csv'
test.to_csv(test_file,index=False)
test_s3_path = session.upload_data(test_file, key_prefix='{}/data'.format(prefix))

X_test_file = 'X_test.csv'
X_test.to_csv(X_test_file,index=False)
X_test_s3_path = session.upload_data(X_test_file, key_prefix='{}/data'.format(prefix))

## ハイパーパラメータの設定

最小の設定は,`fit_args['label']` を選ぶことです。

`fit_args` を使って `autogluon.task.TabularPrediction.fit`に追加設定を渡すことができます。

以下は [Predicting Columns in a Table - In Depth](https://autogluon.mxnet.io/tutorials/tabular_prediction/tabular-indepth.html#model-ensembling-with-stacking-bagging). にある通り、 AutoGluon-Tabular のハイパーパラメーターをより詳細に設定した例です。詳細は [fit parameters](https://autogluon.mxnet.io/api/autogluon.task.html?highlight=eval_metric#autogluon.task.TabularPrediction.fit) をご参照ください。

SageMaker で設定を行う際には、`fit_args['hyperparameters']` のそれぞれの値は string 型で渡す必要があります。


```python
nn_options = {
 'num_epochs': "10",
 'learning_rate': "ag.space.Real(1e-4, 1e-2, default=5e-4, log=True)",
 'activation': "ag.space.Categorical('relu', 'softrelu', 'tanh')",
 'layers': "ag.space.Categorical([100],[1000],[200,100],[300,200,100])",
 'dropout_prob': "ag.space.Real(0.0, 0.5, default=0.1)"
}

gbm_options = {
 'num_boost_round': "100",
 'num_leaves': "ag.space.Int(lower=26, upper=66, default=36)"
}

model_hps = {'NN': nn_options, 'GBM': gbm_options} 

fit_args = {
 'label': 'y',
 'presets': ['best_quality', 'optimize_for_deployment'],
 'time_limits': 60*10,
 'hyperparameters': model_hps,
 'hyperparameter_tune': True,
 'search_strategy': 'skopt'
}

hyperparameters = {
 'fit_args': fit_args,
 'feature_importance': True
}
```
**Note:** ハイパーパラメータの選択によって、モデルパッケージの大きさに影響を及ぼすかも知れません。その場合、モデルのアップロードや学習時間により多くの時間がかかる可能性があります。`fit_args['presets']` の中にある、`'optimize_for_deployment'` を設定することでアップロード時間を短縮することができます。

In [None]:
# Define required label and optional additional parameters
fit_args = {
 'label': 'y',
 # Adding 'best_quality' to presets list will result in better performance (but longer runtime)
 'presets': ['optimize_for_deployment'],
}

# Pass fit_args to SageMaker estimator hyperparameters
hyperparameters = {
 'fit_args': fit_args,
 'feature_importance': True
}

tags = [{
 'Key' : 'AlgorithmName',
 'Value' : 'AutoGluon-Tabular'
}]

## 学習

ノートブックインスタンス上での学習には、`train_instance_type` を `local` に、学習用インスタンスをお使いになる場合には `ml.m5.2xlarge` が推奨です。

**Note:** 学習させるモデルの種類の数によっては、`train_volume_size` を増やす必要があるかもしれません。

In [None]:
%%time

instance_type = 'ml.m5.2xlarge'
#instance_type = 'local'

ecr_image = f'{ecr_uri_prefix}/{training_algorithm_name}:latest'

estimator = Estimator(image_uri=ecr_image,
 role=role,
 instance_count=1,
 instance_type=instance_type,
 hyperparameters=hyperparameters,
 volume_size=100,
 tags=tags)

# Set inputs. Test data is optional, but requires a label column.
inputs = {'training': train_s3_path, 'testing': test_s3_path}

estimator.fit(inputs)

### 学習されたモデルの性能を確認

In [None]:
from utils.ag_utils import launch_viewer

launch_viewer(is_debug=False)

### モデルの作成

In [None]:
# Create predictor object
class AutoGluonTabularPredictor(Predictor):
 def __init__(self, *args, **kwargs):
 super().__init__(*args, 
 serializer=CSVSerializer(), 
 deserializer=StringDeserializer(), **kwargs)

In [None]:
ecr_image = f'{ecr_uri_prefix}/{inference_algorithm_name}:latest'

if instance_type == 'local':
 model = estimator.create_model(image_uri=ecr_image, role=role)
else:
 model_uri = os.path.join(estimator.output_path, estimator._current_job_name, "output", "model.tar.gz")
 model = Model(ecr_image, model_data=model_uri, role=role, sagemaker_session=session, predictor_cls=AutoGluonTabularPredictor)

### バッチ変換


ローカルモードでは `s3:////output/` か `file:///` を出力用に使うことができます。

教師データのラベルをテストデータに含むことで、 予測精度を評価することもできます。 (今回の例では, `test_s3_path` を `X_test_s3_path` の代わりに渡しています)。

In [None]:
output_path = f's3://{bucket}/{prefix}/output/'
# output_path = f'file://{os.getcwd()}'

transformer = model.transformer(instance_count=1, 
 instance_type=instance_type,
 strategy='MultiRecord',
 max_payload=6,
 max_concurrent_transforms=1, 
 output_path=output_path)

transformer.transform(test_s3_path, content_type='text/csv', split_type='Line')
transformer.wait()

### 推論用エンドポイント

##### ローカモードでのデプロイ

In [None]:
instance_type = 'ml.m5.2xlarge'
#instance_type = 'local'

predictor = model.deploy(initial_instance_count=1, 
 instance_type=instance_type)

##### エンドポイントへのアタッチ(カーネルがリスタートした場合は再アタッチ)

In [None]:
# Select standard or local session based on instance_type
if instance_type == 'local': 
 sess = local_session
else: 
 sess = session

# Attach to endpoint
predictor = AutoGluonTabularPredictor(predictor.endpoint, sagemaker_session=sess)

##### ラベルづけされていないデータの推論

In [None]:
results = predictor.predict(X_test.to_csv(index=False)).splitlines()

# Check output
print(Counter(results))

##### ラベルありデータの推論
予測精度の指標がエンドポイントのログとして表示されます。

In [None]:
results = predictor.predict(test.to_csv(index=False)).splitlines()

# Check output
print(Counter(results))

##### 分類精度の指標の確認

In [None]:
y_results = np.array(results)

print("accuracy: {}".format(accuracy_score(y_true=y_test, y_pred=y_results)))
print(classification_report(y_true=y_test, y_pred=y_results, digits=6))

##### 推論用エンドポイントの削除

In [None]:
predictor.delete_endpoint()