# 사용자 데이타에 기반한 RAG(Retrieval-Augmented Generation) 를 사용하여 Question Answering
- 원본 코드
 - https://github.com/aws/amazon-sagemaker-examples/blob/main/introduction_to_amazon_algorithms/jumpstart-foundation-models/question_answering_retrieval_augmented_generation/question_answering_langchain_jumpstart.ipynb

# 1. 기본 환경 설정

In [92]:
%load_ext autoreload
%autoreload 2

# src 폴더 경로 설정
import sys
sys.path.append('../common_code')

The autoreload extension is already loaded. To reload it, use:
 %reload_ext autoreload


In [93]:
import time
import sagemaker, boto3, json
from sagemaker.session import Session
from sagemaker.model import Model
from sagemaker import image_uris, model_uris, script_uris, hyperparameters
from sagemaker.predictor import Predictor
from sagemaker.utils import name_from_base


sagemaker_session = Session()
aws_role = sagemaker_session.get_caller_identity_arn()
aws_region = boto3.Session().region_name
sess = sagemaker.Session()
model_version = "*"

In [94]:
%store -r embedding_model_endpoint_name

print("embedding_model_endpoint_name: \n", embedding_model_endpoint_name)


embedding_model_endpoint_name: 
 KoSimCSE-roberta-2023-06-04-11-24-26


## 모델 정보 입력
- SageMaker 엔드포인트 ARN 입력 등

In [95]:
_MODEL_CONFIG_ = {
 "Kullm-polyglot-12-8b-v2": {
 "instance type": "ml.g5.12xlarge",
 "endpoint_name" : "Kullm-polyglot-12-8b-v2-2023-06-04-11-27-22",
 "env": {"TS_DEFAULT_WORKERS_PER_MODEL": "1"},
 "parse_function": "parse_response_model_KoAlpaca",
 "prompt": """Answer based on context:\n\n{context}\n\n{question}""",
 }, 
 "KoAlpaca-12-8B": {
 "instance type": "ml.g5.12xlarge",
 "endpoint_name" : "KoAlpaca-12-8B-2023-06-04-11-40-34",
 "env": {"TS_DEFAULT_WORKERS_PER_MODEL": "1"},
 "parse_function": "parse_response_model_KoAlpaca",
 "prompt": """Answer based on context:\n\n{context}\n\n{question}""",
 },
 "KoSimCSE-roberta": {
 "instance type": "ml.g5.12xlarge",
 "endpoint_name" : "KoSimCSE-roberta-2023-06-04-11-24-26", 
 "env": {"TS_DEFAULT_WORKERS_PER_MODEL": "1"},
 },
}



# 2. LLM 에 Context 없이 추론 테스트

In [96]:
question = "아마존 매장에서 상품을 판매하려면 어떻게 해야 하나요?"
# question = "아마존 매장에서 상품을 판매하려면 어떻게 해야 하나요?"
c = None
# prompt_wo_c = f"### 질문: {q}\n\n### 맥락: {c}\n\n### 답변:" if c else f"### 질문: {q}\n\n### 답변:" 
prompt_wo_c = f"### question: {question}\n\n### context: {c}\n\n### answer:" if c else f"### question: {question}\n\n### answer:" 
print("prompt_wo_c: \n", prompt_wo_c)

params = {
 "do_sample":False, 
 "max_new_tokens":128,
 "temperature":1.0,
 "top_k":0,
 "top_p":0.9,
 "return_full_text":False,
 "repetition_penalty":1.1,
 "presence_penalty":None,
 "eos_token_id":2,
}

data = {
 "prompt": [prompt_wo_c],
 "params": params
}


prompt_wo_c: 
 ### question: 아마존 매장에서 상품을 판매하려면 어떻게 해야 하나요?

### answer:


In [97]:

from inference_lib import invoke_inference, invoke_inference_DJ
from inference_lib import parse_response_json_model

# model_id = "KoAlpaca-12-8B"
model_id = "Kullm-polyglot-12-8b-v2"

endpoint_name = _MODEL_CONFIG_[model_id]["endpoint_name"]

print("endpoint_name: ", endpoint_name)

query_response = invoke_inference_DJ(
 endpoint_name=endpoint_name, prompt=data
)



query_response = parse_response_json_model(query_response)
print(query_response)

endpoint_name: Kullm-polyglot-12-8b-v2-2023-06-04-11-27-22
[
 [
 {
 "generated_text":" Amazon Store에서 제품을 판매하기 위해서는 다음과 같은 단계를 거쳐야 합니다. 1. 아마존 스토어 계정을 생성합니다. 2. 아마존 스토어에 제품을 추가합니다. 3. 제품의 가격 및 기타 정보를 설정합니다. 4. 아마존 스토어에서 제품을 홍보하고 고객이 구매할 수 있도록 유도합니다. 5. 주문이 완료되면 고객에게 배송합니다. 6. 아마존 스토어에서 제품을 추적하고 재고를 관리합니다. 7. 아마존 스토어에서 제품을 업데이트하여 새로운 제품을 소개합니다. 8. 아마존 스토어에서 제품을 삭제하여 재고를 정리합니다"
 }
 ]
]
 Amazon Store에서 제품을 판매하기 위해서는 다음과 같은 단계를 거쳐야 합니다. 1. 아마존 스토어 계정을 생성합니다. 2. 아마존 스토어에 제품을 추가합니다. 3. 제품의 가격 및 기타 정보를 설정합니다. 4. 아마존 스토어에서 제품을 홍보하고 고객이 구매할 수 있도록 유도합니다. 5. 주문이 완료되면 고객에게 배송합니다. 6. 아마존 스토어에서 제품을 추적하고 재고를 관리합니다. 7. 아마존 스토어에서 제품을 업데이트하여 새로운 제품을 소개합니다. 8. 아마존 스토어에서 제품을 삭제하여 재고를 정리합니다


# 3. 데이터 준비

In [98]:
import glob
import os
import pandas as pd

all_files = glob.glob(os.path.join("../Data/", "amazon_faq_ko.csv"))

df_knowledge = pd.concat(
 (pd.read_csv(f )for f in all_files),
 axis=0,
 ignore_index=True,
)

In [99]:
df_knowledge.drop(["Question"], axis=1, inplace=True)
df_knowledge.rename(columns={"Answer": "Context"}, inplace=True)

In [100]:
file_path = "rag_data/amazon_faq_ko_processed_data.csv"
# df_knowledge.to_csv(file_path, header=False, index=False)
df_knowledge.to_csv(file_path, header=True, index=False)

참고
- Lang Chain CSV Loader Code
 - https://github.com/hwchase17/langchain/blob/master/langchain/document_loaders/csv_loader.py

In [101]:
from langchain.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(file_path , encoding="utf-8")
documents = loader.load()
documents[0:3]


[Document(page_content='Context: 아마존에 등록하면 한 개 또는 수천 개의 아이템을 유연하게 판매할 수 있습니다. 필요에 따라 셀링 플랜을 선택하면 언제든지 플랜을 변경할 수 있습니다.셀러 센트럴을 사용하여 상품 리스팅을 생성하십시오.이 퀵 스타트 스타일 가이드에 따라 멋진 상품 상세 페이지를 만드세요. Amazon Ads 또는 기타 마케팅 채널을 통해 상품을 홍보하십시오.고객이 구매할 때 주문을 신속하게 처리합니다.', metadata={'source': 'rag_data/amazon_faq_ko_processed_data.csv', 'row': 0}),
 Document(page_content='Context: 가능성은 사실상 무한합니다.판매할 수 있는 품목은 상품, 상품 카테고리 및 브랜드에 따라 다릅니다.모든 셀러가 이용할 수 있는 카테고리도 있고, 프로페셔널 셀러 계정이 필요한 카테고리도 있고, 판매 승인이 필요한 카테고리도 있고, 타사 셀러가 판매할 수 없는 상품을 포함하는 카테고리도 있습니다.', metadata={'source': 'rag_data/amazon_faq_ko_processed_data.csv', 'row': 1}),
 Document(page_content='Context: “일부 상품은 법률 또는 규제 제한 (예: 처방약) 또는 아마존 정책 (예: 범죄 현장 사진) 을 준수하는 것으로 리스팅되지 않을 수 있습니다.자세한 내용은 셀러 센트럴 도움말을 방문하여 제한 사항 및 특정 카테고리의 신상품에 대한 승인을 요청하는 방법에 대해 자세히 알아보십시오. Fulfillment by Amazon (아마존 주문처리 서비스) 을 통해 주문을 배송하려는 경우 FBA 상품 제한 목록을 검토하십시오.”', metadata={'source': 'rag_data/amazon_faq_ko_processed_data.csv', 'row': 2})]

# 4 SageMaker Endpoint Wrapper 준비

## SageMaker LLM Wrapper

In [102]:
from langchain.llms.sagemaker_endpoint import SagemakerEndpoint

In [103]:
from inference_lib import KoAlpacaContentHandler
_KoAlpacaContentHandler = KoAlpacaContentHandler()

In [104]:
parameters = {}

sm_llm = SagemakerEndpoint(
 endpoint_name=_MODEL_CONFIG_["KoAlpaca-12-8B"]["endpoint_name"],
 region_name=aws_region,
 model_kwargs=parameters,
 content_handler=_KoAlpacaContentHandler,
)

## SageMaker Embedding Model Wrapper

In [105]:
from inference_lib import SagemakerEndpointEmbeddingsJumpStart
from inference_lib import KoSimCSERobertaContentHandler

In [106]:

_KoSimCSERobertaContentHandler = KoSimCSERobertaContentHandler()

# content_handler = ContentHandler()

embeddings = SagemakerEndpointEmbeddingsJumpStart(
 endpoint_name=_MODEL_CONFIG_["KoSimCSE-roberta"]["endpoint_name"],
 region_name=aws_region,
 content_handler=_KoSimCSERobertaContentHandler,
)

# 5. Vector Store 생성
- FAISS Vector Store 생성

In [107]:
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
from langchain.document_loaders import TextLoader
from langchain.indexes import VectorstoreIndexCreator
from langchain.vectorstores import Chroma, AtlasDB, FAISS
from langchain.text_splitter import CharacterTextSplitter
from langchain import PromptTemplate
from langchain.chains.question_answering import load_qa_chain


In [108]:
index_creator = VectorstoreIndexCreator(
 vectorstore_cls=FAISS,
 embedding=embeddings,
 text_splitter=CharacterTextSplitter(chunk_size=300, chunk_overlap=0),

)

In [109]:
index = index_creator.from_loaders([loader])

 ndim = np.array(response_json).ndim


In [110]:
index.vectorstore.index_to_docstore_id

{0: 'ef2f93cc-57a0-47f3-9a6d-1ac44b609840',
 1: '67045237-8c73-41e7-9af7-8777a898033d',
 2: '6bd8e696-9730-4c0b-8107-553195e0fa4f',
 3: '2bf0d9eb-e1aa-47b0-aa11-bf9baafaf517',
 4: '3829199b-0518-4509-8730-4d6dd98146a7',
 5: '4d30e90e-7552-401c-9ec9-a0bdf3e23dcf',
 6: '5dbf3453-3260-48ee-afba-c1c03d682cb0',
 7: '6c22ed52-c900-40b6-864b-5d82c458964b',
 8: '77396e9d-f147-4631-a232-19be92fbd5bb',
 9: 'f4567586-d810-44b0-b832-bd8f92c34f1e',
 10: 'dff86f80-28dc-42a0-99e9-158cf9c246a8',
 11: '8cf61b5b-d146-4f47-b0f5-5278c6aca0a3'}

# 6. 다른 프롬프트로 QA 애플리케이션 테스트

In [111]:
docsearch = FAISS.from_documents(documents, embeddings)

## 첫번째 질문

In [112]:
question1 = question
print("question1: \n" , question1)

question1: 
 아마존 매장에서 상품을 판매하려면 어떻게 해야 하나요?


Send the top 3 most relevant docuemnts and question into LLM to get a answer.

In [113]:
docs = docsearch.similarity_search_with_score(question1, k=3)
docs

[(Document(page_content='Context: 아마존 매장에서 매출을 늘리는 방법에는 여러 가지가 있습니다.Fulfillment by Amazon (아마존 주문처리 서비스) 을 통해 고객에게 프라임 배송을 제공하여 프라임 회원에게 어필하십시오.또한 다음과 같은 작업을 수행할 수 있습니다.\r\n프로모션, 쿠폰 또는 라이트닝 딜을 제공하여 광고 판도를 높이세요.\r\n브랜드 소유자로 등록하고 아마존 스토어를 사용하여 자신만의 브랜드 경험을 구축하십시오.\r\nA+ 콘텐츠를 만들어 판매를 촉진하세요.\r\n브랜드를 팔로우하는 고객에게 직접 마케팅하기 위한 고객 참여를 관리하세요.\r\n마케팅 전략 및 팁은 전자상거래 마케팅 가이드를 참조하십시오.', metadata={'source': 'rag_data/amazon_faq_ko_processed_data.csv', 'row': 11}),
 130.74762),
 (Document(page_content='Context: 아마존 셀러로 시작하려면 먼저 셀링 플랜을 선택하고 아마존 셀링 계정을 설정하십시오.등록을 완료하려면 은행 계좌 번호 및 은행 라우팅 번호, 청구 가능한 신용 카드, 정부 발행 국가 ID, 세금 정보 및 전화번호에 액세스할 수 있는지 확인하십시오.', metadata={'source': 'rag_data/amazon_faq_ko_processed_data.csv', 'row': 5}),
 150.07126),
 (Document(page_content='Context: 아마존에 등록하면 한 개 또는 수천 개의 아이템을 유연하게 판매할 수 있습니다. 필요에 따라 셀링 플랜을 선택하면 언제든지 플랜을 변경할 수 있습니다.셀러 센트럴을 사용하여 상품 리스팅을 생성하십시오.이 퀵 스타트 스타일 가이드에 따라 멋진 상품 상세 페이지를 만드세요. Amazon Ads 또는 기타 마케팅 채널을 통해 상품을 홍보하십시오.고객이 구매할 때 주문을 신속하게 처리합니다.', metadata={'source

In [114]:
def make_prompt(doc, question):
 context = doc
 # prompt = f'{question} 다음의 Context 를 이용하여 답해주세요. {docs[0].page_content}'
# prompt = f"""Answer based on Context:\n\n### {context}\n\n### Question: {question}\n\n### Answer:"""
# prompt = f"""주어진 Context 에 기반하여 Question에 Answer 하세요 :\n\n### {context}\n\n### Question: {question}\n\n### Answer:"""
 prompt = f"""주어진 Context 에 기반하여 질문에 답변 하세요 :\n\n### {context}\n\n### 질문: {question}\n\n### 답변:""" 
 print("######## prompt : ########## \n\n", prompt)
 
 return prompt

prompt = make_prompt(docs[2][0].page_content, question1)

######## prompt : ########## 

 주어진 Context 에 기반하여 질문에 답변 하세요 :

### Context: 아마존에 등록하면 한 개 또는 수천 개의 아이템을 유연하게 판매할 수 있습니다. 필요에 따라 셀링 플랜을 선택하면 언제든지 플랜을 변경할 수 있습니다.셀러 센트럴을 사용하여 상품 리스팅을 생성하십시오.이 퀵 스타트 스타일 가이드에 따라 멋진 상품 상세 페이지를 만드세요. Amazon Ads 또는 기타 마케팅 채널을 통해 상품을 홍보하십시오.고객이 구매할 때 주문을 신속하게 처리합니다.

### 질문: 아마존 매장에서 상품을 판매하려면 어떻게 해야 하나요?

### 답변:


In [115]:
data = {
 "prompt": [prompt],
 "params": params
}

query_response = invoke_inference_DJ(
 endpoint_name=endpoint_name, prompt=data
)

query_response = parse_response_json_model(query_response)
print(query_response)

[
 [
 {
 "generated_text":"\nAmazon Store는 아마존의 온라인 스토어입니다. 아마존 스토어에서는 다양한 제품을 판매하고 있으며, 이 스토어에서는 고객에게 직접 상품을 배송해 드립니다. 고객은 아마존 스토어에서 상품을 검색하고 구매할 수 있습니다. 또한 아마존 스토어에서는 고객이 상품을 쉽고 빠르게 구매할 수 있도록 다양한 결제 옵션과 편의 기능도 제공합니다.Amazon Store에서 상품을 판매하기 위해서는 다음 단계를 따라야 합니다:1. 아마존 계정을 만듭니다: 아마존 계정을 만들면 아마존 스토어에서 상품을 판매할 수 있"
 }
 ]
]

Amazon Store는 아마존의 온라인 스토어입니다. 아마존 스토어에서는 다양한 제품을 판매하고 있으며, 이 스토어에서는 고객에게 직접 상품을 배송해 드립니다. 고객은 아마존 스토어에서 상품을 검색하고 구매할 수 있습니다. 또한 아마존 스토어에서는 고객이 상품을 쉽고 빠르게 구매할 수 있도록 다양한 결제 옵션과 편의 기능도 제공합니다.Amazon Store에서 상품을 판매하기 위해서는 다음 단계를 따라야 합니다:1. 아마존 계정을 만듭니다: 아마존 계정을 만들면 아마존 스토어에서 상품을 판매할 수 있


## 두번째 질문

In [120]:
question2 = "아마존 스토어에서 판매할 수 없는 품목은 무엇입니까?"


In [121]:
docs2 = docsearch.similarity_search_with_score(question2, k=3)
docs2

[(Document(page_content='Context: “일부 상품은 법률 또는 규제 제한 (예: 처방약) 또는 아마존 정책 (예: 범죄 현장 사진) 을 준수하는 것으로 리스팅되지 않을 수 있습니다.자세한 내용은 셀러 센트럴 도움말을 방문하여 제한 사항 및 특정 카테고리의 신상품에 대한 승인을 요청하는 방법에 대해 자세히 알아보십시오. Fulfillment by Amazon (아마존 주문처리 서비스) 을 통해 주문을 배송하려는 경우 FBA 상품 제한 목록을 검토하십시오.”', metadata={'source': 'rag_data/amazon_faq_ko_processed_data.csv', 'row': 2}),
 177.11441),
 (Document(page_content='Context: 아마존 스토어에는 신규 판매자에게 많은 기회가 있습니다.판매할 수 있는 품목은 상품, 카테고리 및 브랜드에 따라 다릅니다.모든 셀러가 이용할 수 있는 카테고리도 있고 프로페셔널 셀러 계정이 필요한 카테고리도 있습니다.특정 상품은 판매 승인이 필요하며 다른 카테고리에는 타사 판매자가 판매할 수 없는 상품이 포함됩니다.어떤 제품으로 시작해야 할까요?어떤 틈새 시장이 가장 수익성이 높습니까?아이디어를 얻으려면 이 38가지 온라인 비즈니스 아이디어 목록을 확인하세요.아마존 스토어에서 시작하여 전 세계 고객에게 다가간 판매자들의 이야기를 들어보실 수 있습니다.', metadata={'source': 'rag_data/amazon_faq_ko_processed_data.csv', 'row': 4}),
 196.17024),
 (Document(page_content='Context: 아마존에 등록하면 한 개 또는 수천 개의 아이템을 유연하게 판매할 수 있습니다. 필요에 따라 셀링 플랜을 선택하면 언제든지 플랜을 변경할 수 있습니다.셀러 센트럴을 사용하여 상품 리스팅을 생성하십시오.이 퀵 스타트 스타일 가이드에 따라 멋진 상품 상세 페이지를 만드세요. Amazon Ads 또는 

In [122]:
prompt = make_prompt(docs2[0][0].page_content, question2)

######## prompt : ########## 

 주어진 Context 에 기반하여 질문에 답변 하세요 :

### Context: “일부 상품은 법률 또는 규제 제한 (예: 처방약) 또는 아마존 정책 (예: 범죄 현장 사진) 을 준수하는 것으로 리스팅되지 않을 수 있습니다.자세한 내용은 셀러 센트럴 도움말을 방문하여 제한 사항 및 특정 카테고리의 신상품에 대한 승인을 요청하는 방법에 대해 자세히 알아보십시오. Fulfillment by Amazon (아마존 주문처리 서비스) 을 통해 주문을 배송하려는 경우 FBA 상품 제한 목록을 검토하십시오.”

### 질문: 아마존 스토어에서 판매할 수 없는 품목은 무엇입니까?

### 답변:


In [123]:
data = {
 "prompt": [prompt],
 "params": params
}

query_response = invoke_inference_DJ(
 endpoint_name=endpoint_name, prompt=data
)

query_response = parse_response_json_model(query_response)
print(query_response)

[
 [
 {
 "generated_text":"\nAmazon Store 에서 판매 할 수없는 품목은 다음과 같습니다:\n1. 처방전 의약품: 처방전 의약품은 일반적으로 의사의 처방전이 필요합니다. 처방전 의약품을 판매하려면 아마존 스토어에서 판매하기 전에 의사의 처방전이 필요합니다.\n2. 처방전 없이 구입할 수있는 의약품: 처방전 없이 구입할 수있는 의약품은 일반적으로 약국이나 슈퍼마켓에서 구입할 수 있으며, 처방전 없이 사용할 수 있지만 의사의 처방이 필요하지 않습니다. 처방전없이 구입할 수있는 의약품은 일반적으로"
 }
 ]
]

Amazon Store 에서 판매 할 수없는 품목은 다음과 같습니다:
1. 처방전 의약품: 처방전 의약품은 일반적으로 의사의 처방전이 필요합니다. 처방전 의약품을 판매하려면 아마존 스토어에서 판매하기 전에 의사의 처방전이 필요합니다.
2. 처방전 없이 구입할 수있는 의약품: 처방전 없이 구입할 수있는 의약품은 일반적으로 약국이나 슈퍼마켓에서 구입할 수 있으며, 처방전 없이 사용할 수 있지만 의사의 처방이 필요하지 않습니다. 처방전없이 구입할 수있는 의약품은 일반적으로


# 트러블 슈팅: LangChain 한글 문제 발생

In [29]:
# prompt_template = """Answer based on context:\n\n{context}\n\n{question}"""

# PROMPT = PromptTemplate(template=prompt_template, input_variables=["context", "question"])
# PROMPT

In [30]:
# chain = load_qa_chain(llm=sm_llm, prompt=PROMPT)

In [31]:
# result = chain({"input_documents": docs, "question": question}, return_only_outputs=True)[
# "output_text"
# ]
# result