# RWKV SageMaker Inference

RWKV を SageMaker でデプロイするサンプルコード。

例として、日本語が 10% 学習に使用されている RWKV Raven 7B を利用します。必要に応じてモデルを変更してご利用ください。

In [None]:
!pip install "sagemaker>=2.143.0" -U

In [None]:
import sagemaker, boto3, json
from sagemaker import get_execution_role
from sagemaker.pytorch.model import PyTorchModel
from sagemaker.huggingface import HuggingFace

role = get_execution_role()
region = boto3.Session().region_name
sess = sagemaker.Session()
bucket = sess.default_bucket()

sagemaker.__version__

## Prepare Model

In [None]:
# Download Tokenizer to data directory
!curl https://raw.githubusercontent.com/BlinkDL/RWKV-LM/main/RWKV-v4/20B_tokenizer.json --create-dirs -o data/20B_tokenizer.json

In [None]:
!rm scripts/code/base_models/*

In [None]:
base_model_name = "rwkv-4-raven"
base_model_file = "RWKV-4-Raven-7B-v10-Eng89%25-Jpn10%25-Other1%25-20230420-ctx4096.pth"
n_layer = 32
n_embd = 4096

base_model_url = f"https://huggingface.co/BlinkDL/{base_model_name.lower()}/resolve/main/{base_model_file}"
base_model_path = f"scripts/code/base_models/{base_model_file}"

## Package and Upload Model

In [None]:
!rm -rf scripts/model && mkdir scripts/model
!cp data/20B_tokenizer.json scripts/model
%cd scripts
!tar -czvf ../package.tar.gz *
%cd -

In [None]:
model_path = sess.upload_data('package.tar.gz', bucket=bucket, key_prefix=f"RWKV")
model_path

## Deploy Model

RWKV をデプロイします。

RWKV Raven 7B の場合、`ml.g5.2xlarge` での GPU Memory 使用率は 66% でした。

In [None]:
from sagemaker.async_inference import AsyncInferenceConfig
from sagemaker.serializers import JSONSerializer

endpoint_name = "RWKV"

huggingface_model = PyTorchModel(
 model_data=model_path,
 framework_version="1.13",
 py_version='py39',
 role=role,
 name=endpoint_name,
 env={
 "model_params": json.dumps({
 "model_url": base_model_url,
 "model_path": f"/tmp/{base_model_file}",
 "tokenizer_path": "model/20B_tokenizer.json",
 "strategy": "cuda bf16",
 }),
 "SAGEMAKER_MODEL_SERVER_TIMEOUT": "3600"
 }
)

# deploy model to SageMaker Inference
predictor = huggingface_model.deploy(
 initial_instance_count=1,
 instance_type='ml.g5.2xlarge',
 endpoint_name=endpoint_name,
 serializer=JSONSerializer(),
 # async_inference_config=AsyncInferenceConfig()
)

## Run Inference

In [None]:
import sagemaker
from sagemaker.predictor import Predictor
from sagemaker.predictor_async import AsyncPredictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import NumpyDeserializer, JSONDeserializer

endpoint_name = "RWKV"

# predictor_client = AsyncPredictor(
# predictor=Predictor(
# endpoint_name=endpoint_name,
# sagemaker_session=sagemaker.Session(),
# serializer=JSONSerializer(),
# deserializer=JSONDeserializer()
# ),
# name=endpoint_name
# )
predictor_client = Predictor(
 endpoint_name=endpoint_name,
 sagemaker_session=sagemaker.Session(),
 serializer=JSONSerializer(),
 deserializer=JSONDeserializer()
)
data = {
 "instruction": "ヴァージン・オーストラリアはいつから運航を開始したのですか?",
 "input": """ヴァージン・オーストラリア航空(Virgin Australia Airlines Pty Ltd)の商号で、オーストラリアを拠点とする航空会社です。ヴァージン・ブランドを使用する航空会社の中で、保有機材数では最大の航空会社である。2000年8月31日にヴァージン・ブルーとして、2機の航空機で単一路線で運航を開始した[3]。2001年9月のアンセット・オーストラリアの破綻後、突然オーストラリア国内市場の大手航空会社としての地位を確立した。その後、ブリスベン、メルボルン、シドニーをハブとして、オーストラリア国内の32都市に直接乗り入れるまでに成長した[4]。""",
 "token_count": 200,
 "alpha_frequency": 0.25, 
 "alpha_presence": 0.25, 
 "token_ban": [],
 "token_stop": [0],
 "chunk_len": 256
}
response = predictor_client.predict(
 data=data
)
print(response)

In [None]:
import boto3
import json

endpoint_name = "RWKV"
sagemaker_client = boto3.client('sagemaker-runtime')

data = {
 "instruction": "ヴァージン・オーストラリアはいつから運航を開始したのですか?",
 "input": """ヴァージン・オーストラリア航空(Virgin Australia Airlines Pty Ltd)の商号で、オーストラリアを拠点とする航空会社です。ヴァージン・ブランドを使用する航空会社の中で、保有機材数では最大の航空会社である。2000年8月31日にヴァージン・ブルーとして、2機の航空機で単一路線で運航を開始した[3]。2001年9月のアンセット・オーストラリアの破綻後、突然オーストラリア国内市場の大手航空会社としての地位を確立した。その後、ブリスベン、メルボルン、シドニーをハブとして、オーストラリア国内の32都市に直接乗り入れるまでに成長した[4]。""",
 "token_count": 300,
 "alpha_frequency": 0.25, 
 "alpha_presence": 0.25, 
 "token_ban": [],
 "token_stop": [0],
 "chunk_len": 256
}

response = sagemaker_client.invoke_endpoint(
 EndpointName=endpoint_name,
 ContentType='application/json',
 Accept='application/json',
 Body=json.dumps(data)
)

result = json.loads(response['Body'].read())
print(result)

## Benchmark Speed

In [None]:
%timeit response = predictor_client.predict(data=data)

## Delete Endpoint

In [None]:
predictor.delete_model()
predictor.delete_endpoint()