langchain/templates/rag-conversation/rag_conversation/chain.py

import os
from operator import itemgetter
from typing import List, Tuple

from langchain.chat_models import ChatOpenAI
from langchain.embeddings import OpenAIEmbeddings
from langchain.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain.prompts.prompt import PromptTemplate
from langchain.schema import AIMessage, HumanMessage, format_document
from langchain.schema.output_parser import StrOutputParser
from langchain.schema.runnable import (
    RunnableBranch,
    RunnableLambda,
    RunnableMap,
    RunnablePassthrough,
)
from langchain.vectorstores import Pinecone
from pydantic import BaseModel, Field

if os.environ.get("PINECONE_API_KEY", None) is None:
    raise Exception("Missing `PINECONE_API_KEY` environment variable.")

if os.environ.get("PINECONE_ENVIRONMENT", None) is None:
    raise Exception("Missing `PINECONE_ENVIRONMENT` environment variable.")

PINECONE_INDEX_NAME = os.environ.get("PINECONE_INDEX", "langchain-test")

### Ingest code - you may need to run this the first time
# # Load
# from langchain.document_loaders import WebBaseLoader
# loader = WebBaseLoader("https://lilianweng.github.io/posts/2023-06-23-agent/")
# data = loader.load()

# # Split
# from langchain.text_splitter import RecursiveCharacterTextSplitter
# text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)
# all_splits = text_splitter.split_documents(data)

# # Add to vectorDB
# vectorstore = Pinecone.from_documents(
#     documents=all_splits, embedding=OpenAIEmbeddings(), index_name=PINECONE_INDEX_NAME
# )
# retriever = vectorstore.as_retriever()

vectorstore = Pinecone.from_existing_index(PINECONE_INDEX_NAME, OpenAIEmbeddings())
retriever = vectorstore.as_retriever()

# Condense a chat history and follow-up question into a standalone question
_template = """Given the following conversation and a follow up question, rephrase the follow up question to be a standalone question, in its original language.
Chat History:
{chat_history}
Follow Up Input: {question}
Standalone question:"""  # noqa: E501
CONDENSE_QUESTION_PROMPT = PromptTemplate.from_template(_template)

# RAG answer synthesis prompt
template = """Answer the question based only on the following context:
<context>
{context}
</context>"""
ANSWER_PROMPT = ChatPromptTemplate.from_messages(
    [
        ("system", template),
        MessagesPlaceholder(variable_name="chat_history"),
        ("user", "{question}"),
    ]
)

# Conversational Retrieval Chain
DEFAULT_DOCUMENT_PROMPT = PromptTemplate.from_template(template="{page_content}")


def _combine_documents(
    docs, document_prompt=DEFAULT_DOCUMENT_PROMPT, document_separator="\n\n"
):
    doc_strings = [format_document(doc, document_prompt) for doc in docs]
    return document_separator.join(doc_strings)


def _format_chat_history(chat_history: List[Tuple[str, str]]) -> List:
    buffer = []
    for human, ai in chat_history:
        buffer.append(HumanMessage(content=human))
        buffer.append(AIMessage(content=ai))
    return buffer


# User input
class ChatHistory(BaseModel):
    chat_history: List[Tuple[str, str]] = Field(..., extra={"widget": {"type": "chat"}})
    question: str


_search_query = RunnableBranch(
    # If input includes chat_history, we condense it with the follow-up question
    (
        RunnableLambda(lambda x: bool(x.get("chat_history"))).with_config(
            run_name="HasChatHistoryCheck"
        ),  # Condense follow-up question and chat into a standalone_question
        RunnablePassthrough.assign(
            chat_history=lambda x: _format_chat_history(x["chat_history"])
        )
        | CONDENSE_QUESTION_PROMPT
        | ChatOpenAI(temperature=0)
        | StrOutputParser(),
    ),
    # Else, we have no chat history, so just pass through the question
    RunnableLambda(itemgetter("question")),
)

_inputs = RunnableMap(
    {
        "question": lambda x: x["question"],
        "chat_history": lambda x: _format_chat_history(x["chat_history"]),
        "context": _search_query | retriever | _combine_documents,
    }
).with_types(input_type=ChatHistory)

chain = _inputs | ANSWER_PROMPT | ChatOpenAI() | StrOutputParser()
Allow index name customization via env var in rag-conversation (#12315) 2023-10-26 05:11:13 +00:00			`import os`
Templates (#12294) Co-authored-by: Harrison Chase <hw.chase.17@gmail.com> Co-authored-by: Lance Martin <lance@langchain.dev> Co-authored-by: Jacob Lee <jacoblee93@gmail.com> 2023-10-26 01:47:42 +00:00			`from operator import itemgetter`
Format Templates (#12396) 2023-10-27 02:44:30 +00:00			`from typing import List, Tuple`

Templates (#12294) Co-authored-by: Harrison Chase <hw.chase.17@gmail.com> Co-authored-by: Lance Martin <lance@langchain.dev> Co-authored-by: Jacob Lee <jacoblee93@gmail.com> 2023-10-26 01:47:42 +00:00			`from langchain.chat_models import ChatOpenAI`
			`from langchain.embeddings import OpenAIEmbeddings`
Format Templates (#12396) 2023-10-27 02:44:30 +00:00			`from langchain.prompts import ChatPromptTemplate, MessagesPlaceholder`
Templates (#12294) Co-authored-by: Harrison Chase <hw.chase.17@gmail.com> Co-authored-by: Lance Martin <lance@langchain.dev> Co-authored-by: Jacob Lee <jacoblee93@gmail.com> 2023-10-26 01:47:42 +00:00			`from langchain.prompts.prompt import PromptTemplate`
Format Templates (#12396) 2023-10-27 02:44:30 +00:00			`from langchain.schema import AIMessage, HumanMessage, format_document`
Templates (#12294) Co-authored-by: Harrison Chase <hw.chase.17@gmail.com> Co-authored-by: Lance Martin <lance@langchain.dev> Co-authored-by: Jacob Lee <jacoblee93@gmail.com> 2023-10-26 01:47:42 +00:00			`from langchain.schema.output_parser import StrOutputParser`
Format Templates (#12396) 2023-10-27 02:44:30 +00:00			`from langchain.schema.runnable import (`
			`RunnableBranch,`
			`RunnableLambda,`
			`RunnableMap,`
			`RunnablePassthrough,`
			`)`
			`from langchain.vectorstores import Pinecone`
Force List[Tuple[str,str]] to chat history widget (#12530) Co-authored-by: Bagatur <baskaryan@gmail.com> 2023-10-30 22:19:32 +00:00			`from pydantic import BaseModel, Field`
Templates (#12294) Co-authored-by: Harrison Chase <hw.chase.17@gmail.com> Co-authored-by: Lance Martin <lance@langchain.dev> Co-authored-by: Jacob Lee <jacoblee93@gmail.com> 2023-10-26 01:47:42 +00:00
Allow index name customization via env var in rag-conversation (#12315) 2023-10-26 05:11:13 +00:00			`if os.environ.get("PINECONE_API_KEY", None) is None:`
			raise Exception("Missing `PINECONE_API_KEY` environment variable.")

			`if os.environ.get("PINECONE_ENVIRONMENT", None) is None:`
			raise Exception("Missing `PINECONE_ENVIRONMENT` environment variable.")

			`PINECONE_INDEX_NAME = os.environ.get("PINECONE_INDEX", "langchain-test")`

Templates (#12294) Co-authored-by: Harrison Chase <hw.chase.17@gmail.com> Co-authored-by: Lance Martin <lance@langchain.dev> Co-authored-by: Jacob Lee <jacoblee93@gmail.com> 2023-10-26 01:47:42 +00:00			`### Ingest code - you may need to run this the first time`
various templates improvements (#12500) 2023-10-29 05:13:22 +00:00			`# # Load`
Templates (#12294) Co-authored-by: Harrison Chase <hw.chase.17@gmail.com> Co-authored-by: Lance Martin <lance@langchain.dev> Co-authored-by: Jacob Lee <jacoblee93@gmail.com> 2023-10-26 01:47:42 +00:00			`# from langchain.document_loaders import WebBaseLoader`
			`# loader = WebBaseLoader("https://lilianweng.github.io/posts/2023-06-23-agent/")`
			`# data = loader.load()`

			`# # Split`
			`# from langchain.text_splitter import RecursiveCharacterTextSplitter`
			`# text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)`
			`# all_splits = text_splitter.split_documents(data)`
Allow index name customization via env var in rag-conversation (#12315) 2023-10-26 05:11:13 +00:00
Templates (#12294) Co-authored-by: Harrison Chase <hw.chase.17@gmail.com> Co-authored-by: Lance Martin <lance@langchain.dev> Co-authored-by: Jacob Lee <jacoblee93@gmail.com> 2023-10-26 01:47:42 +00:00			`# # Add to vectorDB`
			`# vectorstore = Pinecone.from_documents(`
Allow index name customization via env var in rag-conversation (#12315) 2023-10-26 05:11:13 +00:00			`# documents=all_splits, embedding=OpenAIEmbeddings(), index_name=PINECONE_INDEX_NAME`
Templates (#12294) Co-authored-by: Harrison Chase <hw.chase.17@gmail.com> Co-authored-by: Lance Martin <lance@langchain.dev> Co-authored-by: Jacob Lee <jacoblee93@gmail.com> 2023-10-26 01:47:42 +00:00			`# )`
			`# retriever = vectorstore.as_retriever()`

Allow index name customization via env var in rag-conversation (#12315) 2023-10-26 05:11:13 +00:00			`vectorstore = Pinecone.from_existing_index(PINECONE_INDEX_NAME, OpenAIEmbeddings())`
Templates (#12294) Co-authored-by: Harrison Chase <hw.chase.17@gmail.com> Co-authored-by: Lance Martin <lance@langchain.dev> Co-authored-by: Jacob Lee <jacoblee93@gmail.com> 2023-10-26 01:47:42 +00:00			`retriever = vectorstore.as_retriever()`

			`# Condense a chat history and follow-up question into a standalone question`
			`_template = """Given the following conversation and a follow up question, rephrase the follow up question to be a standalone question, in its original language.`
			`Chat History:`
			`{chat_history}`
			`Follow Up Input: {question}`
Format Templates (#12396) 2023-10-27 02:44:30 +00:00			`Standalone question:""" # noqa: E501`
Templates (#12294) Co-authored-by: Harrison Chase <hw.chase.17@gmail.com> Co-authored-by: Lance Martin <lance@langchain.dev> Co-authored-by: Jacob Lee <jacoblee93@gmail.com> 2023-10-26 01:47:42 +00:00			`CONDENSE_QUESTION_PROMPT = PromptTemplate.from_template(_template)`

			`# RAG answer synthesis prompt`
			`template = """Answer the question based only on the following context:`
			`<context>`
			`{context}`
			`</context>"""`
Format Templates (#12396) 2023-10-27 02:44:30 +00:00			`ANSWER_PROMPT = ChatPromptTemplate.from_messages(`
			`[`
			`("system", template),`
			`MessagesPlaceholder(variable_name="chat_history"),`
			`("user", "{question}"),`
			`]`
			`)`
Templates (#12294) Co-authored-by: Harrison Chase <hw.chase.17@gmail.com> Co-authored-by: Lance Martin <lance@langchain.dev> Co-authored-by: Jacob Lee <jacoblee93@gmail.com> 2023-10-26 01:47:42 +00:00
			`# Conversational Retrieval Chain`
			`DEFAULT_DOCUMENT_PROMPT = PromptTemplate.from_template(template="{page_content}")`
Format Templates (#12396) 2023-10-27 02:44:30 +00:00

			`def _combine_documents(`
			`docs, document_prompt=DEFAULT_DOCUMENT_PROMPT, document_separator="\n\n"`
			`):`
Templates (#12294) Co-authored-by: Harrison Chase <hw.chase.17@gmail.com> Co-authored-by: Lance Martin <lance@langchain.dev> Co-authored-by: Jacob Lee <jacoblee93@gmail.com> 2023-10-26 01:47:42 +00:00			`doc_strings = [format_document(doc, document_prompt) for doc in docs]`
			`return document_separator.join(doc_strings)`

Format Templates (#12396) 2023-10-27 02:44:30 +00:00
Templates (#12294) Co-authored-by: Harrison Chase <hw.chase.17@gmail.com> Co-authored-by: Lance Martin <lance@langchain.dev> Co-authored-by: Jacob Lee <jacoblee93@gmail.com> 2023-10-26 01:47:42 +00:00			`def _format_chat_history(chat_history: List[Tuple[str, str]]) -> List:`
			`buffer = []`
			`for human, ai in chat_history:`
			`buffer.append(HumanMessage(content=human))`
			`buffer.append(AIMessage(content=ai))`
			`return buffer`

Format Templates (#12396) 2023-10-27 02:44:30 +00:00
Allow index name customization via env var in rag-conversation (#12315) 2023-10-26 05:11:13 +00:00			`# User input`
Templates (#12294) Co-authored-by: Harrison Chase <hw.chase.17@gmail.com> Co-authored-by: Lance Martin <lance@langchain.dev> Co-authored-by: Jacob Lee <jacoblee93@gmail.com> 2023-10-26 01:47:42 +00:00			`class ChatHistory(BaseModel):`
Force List[Tuple[str,str]] to chat history widget (#12530) Co-authored-by: Bagatur <baskaryan@gmail.com> 2023-10-30 22:19:32 +00:00			`chat_history: List[Tuple[str, str]] = Field(..., extra={"widget": {"type": "chat"}})`
Templates (#12294) Co-authored-by: Harrison Chase <hw.chase.17@gmail.com> Co-authored-by: Lance Martin <lance@langchain.dev> Co-authored-by: Jacob Lee <jacoblee93@gmail.com> 2023-10-26 01:47:42 +00:00			`question: str`


			`_search_query = RunnableBranch(`
Format Templates (#12396) 2023-10-27 02:44:30 +00:00			`# If input includes chat_history, we condense it with the follow-up question`
			`(`
			`RunnableLambda(lambda x: bool(x.get("chat_history"))).with_config(`
			`run_name="HasChatHistoryCheck"`
			`), # Condense follow-up question and chat into a standalone_question`
			`RunnablePassthrough.assign(`
			`chat_history=lambda x: _format_chat_history(x["chat_history"])`
			`)`
			`\| CONDENSE_QUESTION_PROMPT`
			`\| ChatOpenAI(temperature=0)`
			`\| StrOutputParser(),`
			`),`
			`# Else, we have no chat history, so just pass through the question`
			`RunnableLambda(itemgetter("question")),`
			`)`

			`_inputs = RunnableMap(`
			`{`
			`"question": lambda x: x["question"],`
			`"chat_history": lambda x: _format_chat_history(x["chat_history"]),`
			`"context": _search_query \| retriever \| _combine_documents,`
			`}`
			`).with_types(input_type=ChatHistory)`
Templates (#12294) Co-authored-by: Harrison Chase <hw.chase.17@gmail.com> Co-authored-by: Lance Martin <lance@langchain.dev> Co-authored-by: Jacob Lee <jacoblee93@gmail.com> 2023-10-26 01:47:42 +00:00
			`chain = _inputs \| ANSWER_PROMPT \| ChatOpenAI() \| StrOutputParser()`