{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Module 1. Dataset Cleaning and Analysis\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이 실습에서는 MovieLens 데이터 세트에서 수집된 데이터를 기반으로, 영화 추천 모델을 작성하는 법을 안내합니다.
Module 1 에서는 MovieLens 데이터 세트를 가져와 각 피처들을 확인하고 데이터 클린징 및 분석 작업을 진행합니다.\n", "\n", "## Notebook 사용법\n", "\n", "코드는 여러 코드 셀들로 구성됩니다. 이 페이지의 상단에 삼각형으로 된 실행 단추를 마우스로 클릭하여 각 셀을 실행하고 다음 셀로 이동할 수 있습니다. 또는 셀에서 키보드 단축키 `Shift + Enter`를 눌러 셀을 실행하고 다음 셀로 이동할 수도 있습니다.\n", "\n", "셀이 실행되면 셀이 실행되는 동안 측면에 줄이 * 표시되어 있거나 셀 내의 모든 코드를 예측한 후 실행이 완료된 마지막 셀을 나타내기 위해 숫자로 업데이트됩니다.\n", "\n", "아래 지침을 따르고 셀을 실행하세요.\n", "\n", "## Library Import \n", "\n", "파이썬에는 광범위한 라이브러리 모음이 포함되어 있으며, 본 LAB을 위해서 핵심 Data Scientist용 Tool 인 boto3 (AWS SDK) 및 Pandas/Numpy와 같은 라이브러리를 가져와야 합니다. " ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import boto3\n", "import json\n", "import numpy as np\n", "import pandas as pd\n", "import time\n", "import jsonlines\n", "import os\n", "\n", "from datetime import datetime\n", "import sagemaker\n", "import time\n", "import warnings\n", "\n", "import matplotlib.pyplot as plt\n", "from matplotlib.dates import DateFormatter\n", "import matplotlib.dates as mdate\n", "from botocore.exceptions import ClientError" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "다음으로 여러분의 환경이 Amazon Personalize와 성공적으로 통신할 수 있는지 확인해야 합니다." ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "# Configure the SDK to Personalize:\n", "personalize = boto3.client('personalize')\n", "personalize_runtime = boto3.client('personalize-runtime')\n", "s3 = boto3.resource('s3')" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "## Please fill the information below \n", "#WORK_DATE=\"\"\n", "#BUCKET_NAME = \"\"\n", "#PREFIX=\"\"\n", "\n", "WORK_DATE=\"20201215\"\n", "data_dir = \"poc-data\"\n", "os.makedirs(data_dir+'/'+WORK_DATE,exist_ok=True)\n", "\n", "account_id = \"870180618679\"\n", "BUCKET_NAME = \"jihys-personalize-ap-northeast-2\"\n", "PREFIX=WORK_DATE\n", "\n", "INTERACTION_FILE=\"interation\"\n", "USER_FILE=\"user\"\n", "ITEM_FILE=\"item\"\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 파일 다운로드" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이번 HoL에 사용할 데이터 셋의 압축을 풉니다. 해당 데이터 셋은 [Movie Lense 데이터 셋](http://files.grouplens.org/datasets/movielens/ml-1m.zip) 을 변형한 데이터 입니다." ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Archive: ml-1m-modified.zip\n", " creating: data_ml_1m/\n", " inflating: data_ml_1m/users.dat \n", " inflating: data_ml_1m/movies.csv \n", " inflating: data_ml_1m/ratings.csv \n", " inflating: data_ml_1m/README \n" ] } ], "source": [ "!unzip -o ml-1m-modified.zip" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 데이터 확인하기" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Personalize 에서는 3종류의 데이터 셋을 인풋으로 사용 합니다.\n", "\n", "1) **User**: 이 데이터 세트는 사용자에 대한 메타데이터를 저장합니다. 여기에는 맞춤화 시스템에서 중요한 신호가 될 수 있는 연령, 성별 및 충성도 멤버십 등의 정보가 포함될 수 있습니다.\n", "\n", "2) **Item:** 이 데이터 세트는 항목에 대한 메타데이터를 저장합니다. 여기에는 가격, SKU 유형 또는 가용성과 같은 정보가 포함될 수 있습니다.\n", "\n", "3) **Interaction:** 이 데이터 세트는 사용자와 항목 간의 상호 작용에서 나온 과거 및 실시간 데이터를 저장합니다. 이 데이터에는 사용자의 위치 또는 디바이스(모바일, 태블릿, 데스크톱 등)와 같은 사용자의 검색 컨텍스트에 대한 노출 데이터와 컨텍스트 메타데이터가 포함될 수 있습니다. Interaction 데이터셋은 모든 알고리즘에서 필수로 제공 해야하는 데이터 입니다. \n", " \n", "이번 실습에 사용할 파일의 컬럼에 대한 정보는 아래 README 파일을 통해 확인합니다." ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "SUMMARY\r\n", "================================================================================\r\n", "\r\n", "These files contain 1,000,209 anonymous ratings of approximately 3,900 movies \r\n", "made by 6,040 MovieLens users who joined MovieLens in 2000.\r\n", "\r\n", "USAGE LICENSE\r\n", "================================================================================\r\n", "\r\n", "Neither the University of Minnesota nor any of the researchers\r\n", "involved can guarantee the correctness of the data, its suitability\r\n", "for any particular purpose, or the validity of results based on the\r\n", "use of the data set. The data set may be used for any research\r\n", "purposes under the following conditions:\r\n", "\r\n", " * The user may not state or imply any endorsement from the\r\n", " University of Minnesota or the GroupLens Research Group.\r\n", "\r\n", " * The user must acknowledge the use of the data set in\r\n", " publications resulting from the use of the data set\r\n", " (see below for citation information).\r\n", "\r\n", " * The user may not redistribute the data without separate\r\n", " permission.\r\n", "\r\n", " * The user may not use this information for any commercial or\r\n", " revenue-bearing purposes without first obtaining permission\r\n", " from a faculty member of the GroupLens Research Project at the\r\n", " University of Minnesota.\r\n", "\r\n", "If you have any further questions or comments, please contact GroupLens\r\n", ". \r\n", "\r\n", "CITATION\r\n", "================================================================================\r\n", "\r\n", "To acknowledge use of the dataset in publications, please cite the following\r\n", "paper:\r\n", "\r\n", "F. Maxwell Harper and Joseph A. Konstan. 2015. The MovieLens Datasets: History\r\n", "and Context. ACM Transactions on Interactive Intelligent Systems (TiiS) 5, 4,\r\n", "Article 19 (December 2015), 19 pages. DOI=http://dx.doi.org/10.1145/2827872\r\n", "\r\n", "\r\n", "ACKNOWLEDGEMENTS\r\n", "================================================================================\r\n", "\r\n", "Thanks to Shyong Lam and Jon Herlocker for cleaning up and generating the data\r\n", "set.\r\n", "\r\n", "FURTHER INFORMATION ABOUT THE GROUPLENS RESEARCH PROJECT\r\n", "================================================================================\r\n", "\r\n", "The GroupLens Research Project is a research group in the Department of \r\n", "Computer Science and Engineering at the University of Minnesota. Members of \r\n", "the GroupLens Research Project are involved in many research projects related \r\n", "to the fields of information filtering, collaborative filtering, and \r\n", "recommender systems. The project is lead by professors John Riedl and Joseph \r\n", "Konstan. The project began to explore automated collaborative filtering in \r\n", "1992, but is most well known for its world wide trial of an automated \r\n", "collaborative filtering system for Usenet news in 1996. Since then the project \r\n", "has expanded its scope to research overall information filtering solutions, \r\n", "integrating in content-based methods as well as improving current collaborative \r\n", "filtering technology.\r\n", "\r\n", "Further information on the GroupLens Research project, including research \r\n", "publications, can be found at the following web site:\r\n", " \r\n", " http://www.grouplens.org/\r\n", "\r\n", "GroupLens Research currently operates a movie recommender based on \r\n", "collaborative filtering:\r\n", "\r\n", " http://www.movielens.org/\r\n", "\r\n", "RATINGS FILE DESCRIPTION\r\n", "================================================================================\r\n", "\r\n", "All ratings are contained in the file \"ratings.dat\" and are in the\r\n", "following format:\r\n", "\r\n", "UserID::MovieID::Rating::Timestamp\r\n", "\r\n", "- UserIDs range between 1 and 6040 \r\n", "- MovieIDs range between 1 and 3952\r\n", "- Ratings are made on a 5-star scale (whole-star ratings only)\r\n", "- Timestamp is represented in seconds since the epoch as returned by time(2)\r\n", "- Each user has at least 20 ratings\r\n", "\r\n", "USERS FILE DESCRIPTION\r\n", "================================================================================\r\n", "\r\n", "User information is in the file \"users.dat\" and is in the following\r\n", "format:\r\n", "\r\n", "UserID::Gender::Age::Occupation::Zip-code\r\n", "\r\n", "All demographic information is provided voluntarily by the users and is\r\n", "not checked for accuracy. Only users who have provided some demographic\r\n", "information are included in this data set.\r\n", "\r\n", "- Gender is denoted by a \"M\" for male and \"F\" for female\r\n", "- Age is chosen from the following ranges:\r\n", "\r\n", "\t* 1: \"Under 18\"\r\n", "\t* 18: \"18-24\"\r\n", "\t* 25: \"25-34\"\r\n", "\t* 35: \"35-44\"\r\n", "\t* 45: \"45-49\"\r\n", "\t* 50: \"50-55\"\r\n", "\t* 56: \"56+\"\r\n", "\r\n", "- Occupation is chosen from the following choices:\r\n", "\r\n", "\t* 0: \"other\" or not specified\r\n", "\t* 1: \"academic/educator\"\r\n", "\t* 2: \"artist\"\r\n", "\t* 3: \"clerical/admin\"\r\n", "\t* 4: \"college/grad student\"\r\n", "\t* 5: \"customer service\"\r\n", "\t* 6: \"doctor/health care\"\r\n", "\t* 7: \"executive/managerial\"\r\n", "\t* 8: \"farmer\"\r\n", "\t* 9: \"homemaker\"\r\n", "\t* 10: \"K-12 student\"\r\n", "\t* 11: \"lawyer\"\r\n", "\t* 12: \"programmer\"\r\n", "\t* 13: \"retired\"\r\n", "\t* 14: \"sales/marketing\"\r\n", "\t* 15: \"scientist\"\r\n", "\t* 16: \"self-employed\"\r\n", "\t* 17: \"technician/engineer\"\r\n", "\t* 18: \"tradesman/craftsman\"\r\n", "\t* 19: \"unemployed\"\r\n", "\t* 20: \"writer\"\r\n", "\r\n", "MOVIES FILE DESCRIPTION\r\n", "================================================================================\r\n", "\r\n", "Movie information is in the file \"movies.dat\" and is in the following\r\n", "format:\r\n", "\r\n", "MovieID::Title::Genres\r\n", "\r\n", "- Titles are identical to titles provided by the IMDB (including\r\n", "year of release)\r\n", "- Genres are pipe-separated and are selected from the following genres:\r\n", "\r\n", "\t* Action\r\n", "\t* Adventure\r\n", "\t* Animation\r\n", "\t* Children's\r\n", "\t* Comedy\r\n", "\t* Crime\r\n", "\t* Documentary\r\n", "\t* Drama\r\n", "\t* Fantasy\r\n", "\t* Film-Noir\r\n", "\t* Horror\r\n", "\t* Musical\r\n", "\t* Mystery\r\n", "\t* Romance\r\n", "\t* Sci-Fi\r\n", "\t* Thriller\r\n", "\t* War\r\n", "\t* Western\r\n", "\r\n", "- Some MovieIDs do not correspond to a movie due to accidental duplicate\r\n", "entries and/or test entries\r\n", "- Movies are mostly entered by hand, so errors and inconsistencies may exist\r\n" ] } ], "source": [ "!cat data_ml_1m/README" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
USER_IDITEM_IDEVENT_VALUETIMESTAMPEVENT_TYPE
01111884978220319RATING
1115873978219045RATING
21112653978219815RATING
31127121978220669RATING
41111984978218913RATING
\n", "
" ], "text/plain": [ " USER_ID ITEM_ID EVENT_VALUE TIMESTAMP EVENT_TYPE\n", "0 11 1188 4 978220319 RATING\n", "1 11 587 3 978219045 RATING\n", "2 11 1265 3 978219815 RATING\n", "3 11 2712 1 978220669 RATING\n", "4 11 1198 4 978218913 RATING" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df=pd.read_csv('data_ml_1m/ratings.csv')\n", "df.columns=[\"USER_ID\",\"ITEM_ID\",\"EVENT_VALUE\", \"TIMESTAMP\"]\n", "df['EVENT_TYPE']='RATING'\n", "df.head()" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ITEM_IDTITLEGENRE
01Toy Story (1995)Animation.Children's.Comedy
12Jumanji (1995)Adventure.Children's.Fantasy
23Grumpier Old Men (1995)Comedy.Romance
34Waiting to Exhale (1995)Comedy.Drama
45Father of the Bride Part II (1995)Comedy
\n", "
" ], "text/plain": [ " ITEM_ID TITLE GENRE\n", "0 1 Toy Story (1995) Animation.Children's.Comedy\n", "1 2 Jumanji (1995) Adventure.Children's.Fantasy\n", "2 3 Grumpier Old Men (1995) Comedy.Romance\n", "3 4 Waiting to Exhale (1995) Comedy.Drama\n", "4 5 Father of the Bride Part II (1995) Comedy" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "item=pd.read_csv('data_ml_1m/movies.csv')\n", "item.columns=['ITEM_ID', 'TITLE', 'GENRE']\n", "item.head()" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "/home/ec2-user/anaconda3/envs/python3/lib/python3.6/site-packages/ipykernel/__main__.py:1: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.\n", " if __name__ == '__main__':\n" ] }, { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
USER_IDGENDERAGEOCCUPATIONZIPCODE
01F11048067
12M561670072
23M251555117
34M45702460
45M252055455
\n", "
" ], "text/plain": [ " USER_ID GENDER AGE OCCUPATION ZIPCODE\n", "0 1 F 1 10 48067\n", "1 2 M 56 16 70072\n", "2 3 M 25 15 55117\n", "3 4 M 45 7 02460\n", "4 5 M 25 20 55455" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "user=pd.read_csv('data_ml_1m/users.dat',sep='::',encoding='latin1',names=['USER_ID', 'GENDER','AGE', 'OCCUPATION','ZIPCODE'])\n", "user.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 데이터 클린징\n", "\n", "여기에서는 아래와 같은 데이터 클린징 작업을 합니다.\n", " \n", "- Null/Duplicated 데이터 정리\n", "- 인터렉션 데이터중 메타데이터에 없는 데이터 삭제 " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### NULL Data 및 Duplicated Data 확인 및 삭제\n", "인터렉션 데이터를 조사해 보면 많은 중복 데이터가 존재합니다. 특히나 Interaction data 로그에서 이러한 패턴을 많이 보입니다. \n", "여기서는 불필요한 중복 데이터를 삭제합니다. 또한 TIMESTAMP와 USER_ID, ITEM_ID와 같이 필수 데이터가 null 인 데이터를 제거하도록 합니다.\n", "\n", "단 Amazon Personalize에서는 Amazon Personalize 솔루션에서 생성할 때 일부 메타데이터에 한 해 \"null\"을 허용된 메타데이터 값으로 정의할 수 있습니다. 예를 들어 interaction data의 EVENT_TYPE, item 혹은 user data의 메타 데이터 값에서는 \"null\"을 허용합니다. \"null\" 을 허용된 값으로 사용하기 위해서는 스키마 정의시 null 을 허용하도록 세팅 하여야 합니다.\n", "~~~\n", "\n", "{\n", " \"type\": \"record\",\n", " \"name\": \"Items\",\n", " \"namespace\": \"com.amazonaws.personalize.schema\",\n", " \"fields\": [\n", " {\n", " \"name\": \"ITEM_ID\",\n", " \"type\": \"string\"\n", " },\n", " {\n", " \"name\": \"GENRES\",\n", " \"type\": [\n", " \"null\",\n", " \"string\"\n", " ],\n", " \"categorical\": true\n", " },\n", " {\n", " \"name\": \"CREATION_TIMESTAMP\",\n", " \"type\": \"long\"\n", " }\n", " ],\n", " \"version\": \"1.0\"\n", "}\n", "~~~\n", "\n", "Amazon Personalize는 솔루션을 생성하면서 누락된 메타데이터가 있는 필드를 자동으로 인식하고 기계 학습 모델을 훈련할 때 적절하게 처리합니다.자세한 내용은 [여기](https://docs.aws.amazon.com/personalize/latest/dg/how-it-works-dataset-schema.html#dataset-requirements) 를 참고해 주세요. " ] }, { "cell_type": "code", "execution_count": 9, "metadata": { "scrolled": true }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "# of rows of Null TimeStamp : 0\n", "# of rows of Null User ID : 0\n", "# of rows of Null Item ID : 0\n" ] } ], "source": [ "#interactin data null 데이터 확인 \n", "print(\"# of rows of Null TimeStamp : {}\".format(df['TIMESTAMP'].isnull().sum()))\n", "print(\"# of rows of Null User ID : {}\".format(df['USER_ID'].isnull().sum()))\n", "print(\"# of rows of Null Item ID : {}\".format(df['ITEM_ID'].isnull().sum()))\n", "# interaction null 데이터 삭제\n", "df=df.dropna(subset=['TIMESTAMP','USER_ID','ITEM_ID'])" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "duplicated rows: 40\n" ] } ], "source": [ "#interaction 중복 데이터 확인 \n", "print(\"duplicated rows:\", len(df[df.duplicated(keep=False)]))\n", "#interaction 중복 데이터 제거\n", "df=df.drop_duplicates()" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "# of rows of Null Item ID : 0\n", "duplicated rows: 0\n" ] } ], "source": [ "#item에서 ITEM_ID가 null 인 행을 제거 \n", "print(\"# of rows of Null Item ID : {}\".format(item['ITEM_ID'].isnull().sum()))\n", "item=item.dropna(subset=['ITEM_ID'])\n", "#item meta 중복 데이터 확인\n", "print(\"duplicated rows:\", len(item[item.duplicated(keep=False)]))\n", "#item meta 중복 데이터 제거\n", "item=item.drop_duplicates()" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "# of rows of Null User ID : 0\n", "duplicated rows: 0\n" ] } ], "source": [ "#user에서 USER_ID가 null 인 행을 제거 \n", "print(\"# of rows of Null User ID : {}\".format(df['USER_ID'].isnull().sum()))\n", "user=user.dropna(subset=['USER_ID'])\n", "#user meta 중복 데이터 확인\n", "print(\"duplicated rows:\", len(user[user.duplicated(keep=False)]))\n", "#user meta 중복 데이터 제거\n", "user=user.drop_duplicates()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 인터렉션 데이터중 메타데이터에 없는 데이터 삭제\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Item Metadata 에 없는 인터렉션 삭제하기 \n", "- Item metadata에 없는 아이템 아이디를 제외한 인터렉션 테이블을 추려냅니다.
(이번 샘플 데이터 셋에는 위같은 데이터가 존재하진 않습니다.)
\n", "`unique_item_from_df=df['ITEM_ID'].unique()`
\n", "`unique_item_from_meta=item['ITEM_ID'].unique()`\n", "\n", "- 아래 코드를 실행하여 Item metadata에 없는 인터렉션 정보를 확인합니다.
\n", "`assert(len(df[- df['ITEM_ID'].isin(unique_item_from_meta)])==0)`\n", "- 해당 인터렉션 라인을 삭제 합니다.
\n", "`df= df[df['ITEM_ID'].isin(unique_item_from_meta)] `\n", "\n", "비슷한 방식으로 User metadata에 없는 사용자를 제거 할수도 있습니다.
\n", "* `unique_user_from_df=df['USER_ID'].unique()`
\n", "* `unique_user_from_meta=user['USER_ID'].unique()`
\n", "* `assert(len(df[- df['USER_ID'].isin(unique_user_from_meta)])==0)`
\n", "* `df= df[df['USER_ID'].isin(unique_user_from_meta)] `

" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Unique items from interaction: 3678\n", "Unique items from item metadata: 3883\n" ] } ], "source": [ "unique_item_from_df=df[\"ITEM_ID\"].unique()\n", "unique_item_from_meta=item['ITEM_ID'].unique()\n", "print(\"Unique items from interaction:\",len(unique_item_from_df))\n", "print(\"Unique items from item metadata:\", len(unique_item_from_meta))\n" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [], "source": [ "assert(len(df[- df['ITEM_ID'].isin(unique_item_from_meta)])==0)\n", "#df=df[df['ITEM_ID'].isin(unique_item_from_meta)]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Multi-Category 데이터 준비 \n", "영화 장르와 같이 여러 장르로 구분할 수 있는 데이터는 '|'로 구분되어 표기되어야 합니다.
\n", "아래 코드는 '.'으로 구분되어 있는 구분자를 '|'로 대체 할 수 있습니다. \n", "자세한 내용은 [여기](https://docs.aws.amazon.com/ko_kr/personalize/latest/dg/data-prep-formatting.html)를 클릭하여 확인합니다.\n", "![image.png](images/image1.png)\n", "\n" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "/home/ec2-user/anaconda3/envs/python3/lib/python3.6/site-packages/ipykernel/__main__.py:3: SettingWithCopyWarning: \n", "A value is trying to be set on a copy of a slice from a DataFrame\n", "\n", "See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy\n", " app.launch_new_instance()\n" ] }, { "data": { "text/html": [ "

\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ITEM_IDTITLEGENRE
01Toy Story (1995)Animation|Children's|Comedy
12Jumanji (1995)Adventure|Children's|Fantasy
23Grumpier Old Men (1995)Comedy|Romance
34Waiting to Exhale (1995)Comedy|Drama
45Father of the Bride Part II (1995)Comedy
\n", "
" ], "text/plain": [ " ITEM_ID TITLE GENRE\n", "0 1 Toy Story (1995) Animation|Children's|Comedy\n", "1 2 Jumanji (1995) Adventure|Children's|Fantasy\n", "2 3 Grumpier Old Men (1995) Comedy|Romance\n", "3 4 Waiting to Exhale (1995) Comedy|Drama\n", "4 5 Father of the Bride Part II (1995) Comedy" ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" } ], "source": [ "#Multi label \n", "for idx,i in enumerate(item[\"GENRE\"]):\n", " item[\"GENRE\"][idx]=i.replace('.', '|') \n", "item.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## INTERACTION DATA 정보 확인\n", "\n", "Personalize에서 학습을 수행하기 위해서는 다음과 [official limits](https://docs.aws.amazon.com/personalize/latest/dg/limits.html)같은 데이터 요구사항을 맞추어야 합니다. \n", "\n", "* 최소 25명 고유 사용자 \n", "* 최소 100개 고유 아이템 \n", "* 사용자 당 2개 이상의 Interaction(예. 구매,평가 등) 기록\n", "\n", "\n", "하지만 일반적으로 다음과 같은 데이터가 준비 되어 있는것이 좋습니다. \n", "\n", "* 최소 50명 고유 사용자 \n", "* 최소 100개 고유 아이템 \n", "* 사용자 당 24 이상의 Interaction(예. 구매,평가 등) 기록" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 사용자 평점 분포하기\n", "\n", "여기에서는 사용자 평점 분포를 확인합니다. \n", "사용자 평점이 1,2 인 경우 사용자가 선호하는 아이템으로 확인하기 어렵기 때문에 여기 핸즈온에서는 3점 이상인 벨류만 사용하도록 합니다." ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Print User Rating Value counts\n", "df.EVENT_VALUE.value_counts().plot(kind='bar')\n", "plt.title(\"EVENT_VALUE: USer Ratings count\")\n", "plt.show()" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [], "source": [ "df=df[df['EVENT_VALUE']>=3]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 인터렉션의 사용자 정보 분석 \n", "\n", "User personalization 계열의 추천 알고리즘에서는 학습에 포함할 Percentile을 조정할 수 있는 파라메터(min_user_history_length_percentile, max_user_history_length_percentile)가 있습니다. \n", "너무 인터렉션이 많은 사용자는 데이터에 노이즈를 포함되는 경우가 있기 때문에 제외하는 것이 좋습니다. 또한 너무 인터렉션이 적은 사용자 또한 제대로된 추천 기록을 받기 어렵기 때문에 제외하는것이 좋습니다. Default로는 min max 값은 0과 0.99로 세팅되어 있습니다.\n", "예를 들어 min_user_history_length_percentile to 0.05 및 max_user_history_length_percentile to 0.95 설정에는 기록 길이가 하위 또는 상위 5%에 해당하는 사용자를 제외한 모든 사용자가 포함됩니다." ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Unique User from interaction: 6023\n", "Unique Item from interaction: 3590\n", "Unique User from usermeta 6040\n", "Unique Item from itemmeta: 3883\n" ] } ], "source": [ "## checkout the unique number of users and items in the interaction\n", "unique_user_from_df=df['USER_ID'].unique()\n", "unique_item_from_df=df['ITEM_ID'].unique()\n", "print(\"Unique User from interaction:\", len(unique_user_from_df))\n", "print(\"Unique Item from interaction:\",len(unique_item_from_df))\n", "unique_user_from_meta=user[\"USER_ID\"].unique()\n", "unique_item_from_meta=item[\"ITEM_ID\"].unique()\n", "print(\"Unique User from usermeta\", len(unique_user_from_meta))\n", "print(\"Unique Item from itemmeta:\",len(unique_item_from_meta))\n" ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
INTERACTION_COUNTS
USER_ID
1134
1221
13100
1418
15166
......
6036708
6037189
603818
6039119
6040253
\n", "

6023 rows × 1 columns

\n", "
" ], "text/plain": [ " INTERACTION_COUNTS\n", "USER_ID \n", "11 34\n", "12 21\n", "13 100\n", "14 18\n", "15 166\n", "... ...\n", "6036 708\n", "6037 189\n", "6038 18\n", "6039 119\n", "6040 253\n", "\n", "[6023 rows x 1 columns]" ] }, "execution_count": 19, "metadata": {}, "output_type": "execute_result" } ], "source": [ "user_activity_counts = df.groupby(\"USER_ID\").count().loc[:,[\"EVENT_VALUE\"]].rename(columns={\"EVENT_VALUE\":\"INTERACTION_COUNTS\"})\n", "user_activity_counts" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
INTERACTION_COUNTS
0.01008.0000
0.050018.0000
0.100022.0000
0.200030.0000
0.300041.0000
0.400056.0000
0.500074.0000
0.6000100.0000
0.8000193.0000
0.9000298.0000
0.9500401.9000
0.9900692.5600
0.99901016.6920
0.99991618.8258
1.00001776.0000
\n", "
" ], "text/plain": [ " INTERACTION_COUNTS\n", "0.0100 8.0000\n", "0.0500 18.0000\n", "0.1000 22.0000\n", "0.2000 30.0000\n", "0.3000 41.0000\n", "0.4000 56.0000\n", "0.5000 74.0000\n", "0.6000 100.0000\n", "0.8000 193.0000\n", "0.9000 298.0000\n", "0.9500 401.9000\n", "0.9900 692.5600\n", "0.9990 1016.6920\n", "0.9999 1618.8258\n", "1.0000 1776.0000" ] }, "execution_count": 20, "metadata": {}, "output_type": "execute_result" } ], "source": [ "user_activity_counts.quantile([0.01,0.05,.1,.2,.3,.4,.5,.6,.8,.9,.95,.99,.999,.9999,1.0])" ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [], "source": [ "user_activity_counts=user_activity_counts.reset_index()\n", "activities = user_activity_counts.groupby('INTERACTION_COUNTS').count()\n", "activities.columns=['NUM_USERS']" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [], "source": [ "activities['NUM_USERS'].sum()\n", "assert (len(unique_user_from_df)==activities['NUM_USERS'].sum())" ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "activities.plot(kind='bar',figsize=(15,5))\n", "#activities.loc[:,:].plot(kind='bar', figsize=(15,5), ylim=(0,5496))\n", "plt.title(\"activities users group\")\n", "\n", "plt.show()" ] }, { "cell_type": "code", "execution_count": 24, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Number of Users in Activities counts @Max Frequency of 22: 95\n" ] } ], "source": [ "print(\"Number of Users in Activities counts @Max Frequency of {}:\".format(activities['NUM_USERS'].idxmax()),activities['NUM_USERS'].max())" ] }, { "cell_type": "code", "execution_count": 25, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "5225" ] }, "execution_count": 25, "metadata": {}, "output_type": "execute_result" } ], "source": [ "activities[activities.index > 24].NUM_USERS.sum()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 인터렉션의 아이템 분석" ] }, { "cell_type": "code", "execution_count": 26, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " USER_ID ITEM_ID EVENT_VALUE TIMESTAMP EVENT_TYPE\n", "0 11 1188 4 978220319 RATING\n", "1 11 587 3 978219045 RATING\n", "2 11 1265 3 978219815 RATING\n", "4 11 1198 4 978218913 RATING\n", "5 11 593 5 978219607 RATING\n" ] } ], "source": [ "print(df.head())\n", "df.ITEM_ID = df.ITEM_ID.astype(str)" ] }, { "cell_type": "code", "execution_count": 27, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "def draw_long_tails(df, is_in_event_types, groupby_column_name, count_name, range1=100, range2=1000, range3=3000):\n", " filtered_df = df.loc[df[\"EVENT_VALUE\"].isin(is_in_event_types)]\n", " #print(filtered_df.head())\n", " groupby_df = filtered_df.groupby(groupby_column_name).count().loc[:,[\"EVENT_VALUE\"]].rename(columns={\"EVENT_VALUE\":count_name})\n", " #print(groupby_df.head())\n", " sorted_df = groupby_df.sort_values([count_name], ascending=False)\n", " #print(sorted_df.head())\n", " sorted_df.plot(kind='line', figsize=(15,5))\n", " plt.title(count_name + \" per \" + groupby_column_name)\n", " plt.show()\n", " \n", " sorted_df[:range1].plot(kind='line', figsize=(15,5))\n", " plt.title(count_name + \" per \" + groupby_column_name + \"/ 1 ~\" + str(range1) + \"th\")\n", " plt.show()\n", " \n", " sorted_df[range1:range2].plot(kind='line', figsize=(15,5))\n", " plt.title(count_name + \" per \" + groupby_column_name + \" / \" + str(range1) + \"th ~ \"+ str(range2) + \"th\")\n", " plt.show()\n", "\n", " sorted_df[range2:range3].plot(kind='line', figsize=(15,5))\n", " plt.title(count_name + \" per \" + groupby_column_name + \" / \" + str(range2) + \"th ~ \"+ str(range3) + \"th\")\n", " plt.show()\n", " \n", " sorted_df[range3:].plot(kind='line', figsize=(15,5))\n", " plt.title(count_name + \" per \" + groupby_column_name + \" / \" + str(range3) + \"th ~ \")\n", " plt.show()\n", " \n", " \n", " \n", "#draw_long_tails(df, [\"ORDER\",\"VIEW_DETAIL\",\"ADD_CART\"], \"ITEM_ID\", \"ALL_EVENTS\", 100, 1000, 3000) \n", "draw_long_tails(df, [\"5\",\"4\",\"3\"], \"ITEM_ID\", \"ALL_EVENTS\", 100, 1000, 3000) \n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 사용자 메타 데이터 분석" ] }, { "cell_type": "code", "execution_count": 28, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " USER_ID GENDER AGE OCCUPATION ZIPCODE\n", "0 1 F 1 10 48067\n", "1 2 M 56 16 70072\n", "2 3 M 25 15 55117\n", "3 4 M 45 7 02460\n", "4 5 M 25 20 55455\n" ] }, { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
USER_IDAGEOCCUPATION
count6040.0000006040.0000006040.000000
mean3020.50000030.6392388.146854
std1743.74214512.8959626.329511
min1.0000001.0000000.000000
25%1510.75000025.0000003.000000
50%3020.50000025.0000007.000000
75%4530.25000035.00000014.000000
max6040.00000056.00000020.000000
\n", "
" ], "text/plain": [ " USER_ID AGE OCCUPATION\n", "count 6040.000000 6040.000000 6040.000000\n", "mean 3020.500000 30.639238 8.146854\n", "std 1743.742145 12.895962 6.329511\n", "min 1.000000 1.000000 0.000000\n", "25% 1510.750000 25.000000 3.000000\n", "50% 3020.500000 25.000000 7.000000\n", "75% 4530.250000 35.000000 14.000000\n", "max 6040.000000 56.000000 20.000000" ] }, "execution_count": 28, "metadata": {}, "output_type": "execute_result" } ], "source": [ "print(user.head())\n", "user.describe()" ] }, { "cell_type": "code", "execution_count": 29, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
GENDER_COUNTS
GENDER
F1709
M4331
\n", "
" ], "text/plain": [ " GENDER_COUNTS\n", "GENDER \n", "F 1709\n", "M 4331" ] }, "execution_count": 29, "metadata": {}, "output_type": "execute_result" } ], "source": [ "user_GENDER_counts = user.groupby('GENDER').count().loc[:,[\"USER_ID\"]].rename(columns={\"USER_ID\":\"GENDER_COUNTS\"})\n", "user_GENDER_counts" ] }, { "cell_type": "code", "execution_count": 30, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
AGE_COUNTS
AGE
1222
181103
252096
351193
45550
50496
56380
\n", "
" ], "text/plain": [ " AGE_COUNTS\n", "AGE \n", "1 222\n", "18 1103\n", "25 2096\n", "35 1193\n", "45 550\n", "50 496\n", "56 380" ] }, "execution_count": 30, "metadata": {}, "output_type": "execute_result" } ], "source": [ "user_AGE_counts = user.groupby('AGE').count().loc[:,[\"USER_ID\"]].rename(columns={\"USER_ID\":\"AGE_COUNTS\"})\n", "user_AGE_counts" ] }, { "cell_type": "code", "execution_count": 31, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
OCCUPATION_COUNTS
OCCUPATION
0711
1528
2267
3173
4759
5112
6236
7679
817
992
10195
11129
12388
13142
14302
15144
16241
17502
1870
1972
20281
\n", "
" ], "text/plain": [ " OCCUPATION_COUNTS\n", "OCCUPATION \n", "0 711\n", "1 528\n", "2 267\n", "3 173\n", "4 759\n", "5 112\n", "6 236\n", "7 679\n", "8 17\n", "9 92\n", "10 195\n", "11 129\n", "12 388\n", "13 142\n", "14 302\n", "15 144\n", "16 241\n", "17 502\n", "18 70\n", "19 72\n", "20 281" ] }, "execution_count": 31, "metadata": {}, "output_type": "execute_result" } ], "source": [ "user_OCCUPATION_counts = user.groupby('OCCUPATION').count().loc[:,[\"USER_ID\"]].rename(columns={\"USER_ID\":\"OCCUPATION_COUNTS\"})\n", "user_OCCUPATION_counts" ] }, { "cell_type": "code", "execution_count": 32, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ZIPCODE_COUNTS
ZIPCODE
002311
006061
006811
006931
009181
......
997031
997091
998011
998261
999451
\n", "

3439 rows × 1 columns

\n", "
" ], "text/plain": [ " ZIPCODE_COUNTS\n", "ZIPCODE \n", "00231 1\n", "00606 1\n", "00681 1\n", "00693 1\n", "00918 1\n", "... ...\n", "99703 1\n", "99709 1\n", "99801 1\n", "99826 1\n", "99945 1\n", "\n", "[3439 rows x 1 columns]" ] }, "execution_count": 32, "metadata": {}, "output_type": "execute_result" } ], "source": [ "user_ZIPCODE_counts = user.groupby('ZIPCODE').count().loc[:,[\"USER_ID\"]].rename(columns={\"USER_ID\":\"ZIPCODE_COUNTS\"})\n", "user_ZIPCODE_counts" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "AGE,GENDER,OCCUPATION은 전체 사용자 수 6023명 대비 비교적낮은 캐터고리 개수(Cardinality)가 존배합니다. \n", "하지만 zipcode 경우 3439개로 너무 높습니다. 따라서 이후 학습시에는 사용하지 않도록 합니다. " ] }, { "cell_type": "code", "execution_count": 33, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
USER_IDGENDERAGEOCCUPATION
01F110
12M5616
23M2515
34M457
45M2520
\n", "
" ], "text/plain": [ " USER_ID GENDER AGE OCCUPATION\n", "0 1 F 1 10\n", "1 2 M 56 16\n", "2 3 M 25 15\n", "3 4 M 45 7\n", "4 5 M 25 20" ] }, "execution_count": 33, "metadata": {}, "output_type": "execute_result" } ], "source": [ "user=user.drop(['ZIPCODE'],axis=1)\n", "user.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## ITEM 메타 데이터 분석" ] }, { "cell_type": "code", "execution_count": 34, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ITEM_IDTITLEGENRE
01Toy Story (1995)Animation|Children's|Comedy
12Jumanji (1995)Adventure|Children's|Fantasy
23Grumpier Old Men (1995)Comedy|Romance
34Waiting to Exhale (1995)Comedy|Drama
45Father of the Bride Part II (1995)Comedy
\n", "
" ], "text/plain": [ " ITEM_ID TITLE GENRE\n", "0 1 Toy Story (1995) Animation|Children's|Comedy\n", "1 2 Jumanji (1995) Adventure|Children's|Fantasy\n", "2 3 Grumpier Old Men (1995) Comedy|Romance\n", "3 4 Waiting to Exhale (1995) Comedy|Drama\n", "4 5 Father of the Bride Part II (1995) Comedy" ] }, "execution_count": 34, "metadata": {}, "output_type": "execute_result" } ], "source": [ "item.head()" ] }, { "cell_type": "code", "execution_count": 35, "metadata": {}, "outputs": [], "source": [ "item.ITEM_ID = item.ITEM_ID.astype(str)" ] }, { "cell_type": "code", "execution_count": 36, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
GENRE_COUNTS
GENRE
Action65
Action|Adventure25
Action|Adventure|Animation1
Action|Adventure|Animation|Children's|Fantasy1
Action|Adventure|Animation|Horror|Sci-Fi1
......
Sci-Fi|Thriller|War1
Sci-Fi|War1
Thriller101
War12
Western33
\n", "

301 rows × 1 columns

\n", "
" ], "text/plain": [ " GENRE_COUNTS\n", "GENRE \n", "Action 65\n", "Action|Adventure 25\n", "Action|Adventure|Animation 1\n", "Action|Adventure|Animation|Children's|Fantasy 1\n", "Action|Adventure|Animation|Horror|Sci-Fi 1\n", "... ...\n", "Sci-Fi|Thriller|War 1\n", "Sci-Fi|War 1\n", "Thriller 101\n", "War 12\n", "Western 33\n", "\n", "[301 rows x 1 columns]" ] }, "execution_count": 36, "metadata": {}, "output_type": "execute_result" } ], "source": [ "item_genre_counts = item.groupby('GENRE').count().loc[:,[\"ITEM_ID\"]].rename(columns={\"ITEM_ID\":\"GENRE_COUNTS\"})\n", "item_genre_counts " ] }, { "cell_type": "code", "execution_count": 37, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "sorted_item = item_genre_counts.sort_values(\"GENRE_COUNTS\", ascending=False)\n", "sorted_item[:10].plot(kind='bar',figsize=(15,5))\n", "plt.title(\"Top 10 frequent movie genres in item data\")\n", "plt.show()" ] }, { "cell_type": "code", "execution_count": 38, "metadata": {}, "outputs": [], "source": [ "item_file=data_dir+'/'+WORK_DATE+'/'+'item.csv'\n", "user_file=data_dir+'/'+WORK_DATE+'/'+'user.csv'\n", "inter_file=data_dir+'/'+WORK_DATE+'/'+'intercation.csv'\n", "\n", "item.to_csv(item_file,index=False)\n", "user.to_csv(user_file,index=False)\n", "df.to_csv(inter_file,index=False)" ] }, { "cell_type": "code", "execution_count": 39, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Stored 'WORK_DATE' (str)\n", "Stored 'data_dir' (str)\n", "Stored 'account_id' (str)\n", "Stored 'BUCKET_NAME' (str)\n", "Stored 'PREFIX' (str)\n", "Stored 'item_file' (str)\n", "Stored 'user_file' (str)\n", "Stored 'inter_file' (str)\n" ] } ], "source": [ "%store WORK_DATE\n", "%store data_dir\n", "%store account_id \n", "%store BUCKET_NAME \n", "%store PREFIX\n", "%store item_file\n", "%store user_file\n", "%store inter_file" ] } ], "metadata": { "kernelspec": { "display_name": "conda_python3", "language": "python", "name": "conda_python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.10" } }, "nbformat": 4, "nbformat_minor": 4 }