Harrison/fauna loader (#5864)

Co-authored-by: Shadid12 <Shadid12@users.noreply.github.com>
2023-06-07 21:32:23 -07:00 · 2023-06-07 21:32:23 -07:00 · 658f8bdee7
commit 658f8bdee7
parent 5518f24ec3
4 changed files with 190 additions and 0 deletions
--- a/docs/modules/indexes/document_loaders/examples/fauna.ipynb
+++ b/docs/modules/indexes/document_loaders/examples/fauna.ipynb
@ -0,0 +1,84 @@
 {
 "cells": [
  {
   "attachments": {},
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Fauna\n",
    "\n",
    ">[Fauna](https://fauna.com/) is a Document Database.\n",
    "\n",
    "Query `Fauna` documents"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#!pip install fauna"
   ]
  },
  {
   "attachments": {},
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Query data example"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "from langchain.document_loaders.fauna import FaunaLoader\n",
    "\n",
    "secret = \"<enter-valid-fauna-secret>\"\n",
    "query = \"Item.all()\" # Fauna query. Assumes that the collection is called \"Item\"\n",
    "field = \"text\" # The field that contains the page content. Assumes that the field is called \"text\"\n",
    "\n",
    "loader = FaunaLoader(query, field, secret)\n",
    "docs = loader.lazy_load()\n",
    "\n",
    "for value in docs:\n",
    "    print(value)"
   ]
  },
  {
   "attachments": {},
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Query with Pagination\n",
    "You get a `after` value if there are more data. You can get values after the curcor by passing in the `after` string in query. \n",
    "\n",
    "To learn more following [this link](https://fqlx-beta--fauna-docs.netlify.app/fqlx/beta/reference/schema_entities/set/static-paginate)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "query = \"\"\"\n",
    "Item.paginate(\"hs+DzoPOg ... aY1hOohozrV7A\")\n",
    "Item.all()\n",
    "\"\"\"\n",
    "loader = FaunaLoader(query, field, secret)"
   ]
  }
 ],
 "metadata": {
  "language_info": {
   "name": "python"
  },
  "orig_nbformat": 4
 },
 "nbformat": 4,
 "nbformat_minor": 2
 }
--- a/langchain/document_loaders/init.py
+++ b/langchain/document_loaders/init.py
@ -34,6 +34,7 @@ from langchain.document_loaders.epub import UnstructuredEPubLoader
 from langchain.document_loaders.evernote import EverNoteLoader
 from langchain.document_loaders.excel import UnstructuredExcelLoader
 from langchain.document_loaders.facebook_chat import FacebookChatLoader
 from langchain.document_loaders.fauna import FaunaLoader
 from langchain.document_loaders.figma import FigmaFileLoader
 from langchain.document_loaders.gcs_directory import GCSDirectoryLoader
 from langchain.document_loaders.gcs_file import GCSFileLoader
@ -155,6 +156,7 @@ __all__ = [
    "DocugamiLoader",
    "Docx2txtLoader",
    "DuckDBLoader",
    "FaunaLoader",
    "EverNoteLoader",
    "FacebookChatLoader",
    "FigmaFileLoader",
--- a/langchain/document_loaders/fauna.py
+++ b/langchain/document_loaders/fauna.py
@ -0,0 +1,63 @@
 from typing import Iterator, List, Optional, Sequence
 from langchain.docstore.document import Document
 from langchain.document_loaders.base import BaseLoader
 class FaunaLoader(BaseLoader):
    """
    Attributes:
        query (str): The FQL query string to execute.
        page_content_field (str): The field that contains the content of each page.
        secret (str): The secret key for authenticating to FaunaDB.
        metadata_fields (Optional[Sequence[str]]):
            Optional list of field names to include in metadata.
    """
    def __init__(
        self,
        query: str,
        page_content_field: str,
        secret: str,
        metadata_fields: Optional[Sequence[str]] = None,
    ):
        self.query = query
        self.page_content_field = page_content_field
        self.secret = secret
        self.metadata_fields = metadata_fields
    def load(self) -> List[Document]:
        return list(self.lazy_load())
    def lazy_load(self) -> Iterator[Document]:
        try:
            from fauna import Page, fql
            from fauna.client import Client
            from fauna.encoding import QuerySuccess
        except ImportError:
            raise ImportError(
                "Could not import fauna python package. "
                "Please install it with `pip install fauna`."
            )
        # Create Fauna Client
        client = Client(secret=self.secret)
        # Run FQL Query
        response: QuerySuccess = client.query(fql(self.query))
        page: Page = response.data
        for result in page:
            if result is not None:
                document_dict = dict(result.items())
                page_content = ""
                for key, value in document_dict.items():
                    if key == self.page_content_field:
                        page_content = value
                document: Document = Document(
                    page_content=page_content,
                    metadata={"id": result.id, "ts": result.ts},
                )
                yield document
        if page.after is not None:
            yield Document(
                page_content="Next Page Exists",
                metadata={"after": page.after},
            )
--- a/tests/integration_tests/document_loaders/test_fauna.py
+++ b/tests/integration_tests/document_loaders/test_fauna.py
@ -0,0 +1,41 @@
 import unittest
 from langchain.document_loaders.fauna import FaunaLoader
 try:
    import fauna  # noqa: F401
    fauna_installed = True
 except ImportError:
    fauna_installed = False
@unittest.skipIf(not fauna_installed, "fauna not installed")
 class TestFaunaLoader(unittest.TestCase):
    def setUp(self) -> None:
        self.fauna_secret = "<enter-valid-fauna-secret>"
        self.valid_fql_query = "Item.all()"
        self.valid_page_content_field = "text"
        self.valid_metadata_fields = ["valid_metadata_fields"]
    def test_fauna_loader(self) -> None:
        """Test Fauna loader."""
        loader = FaunaLoader(
            query=self.valid_fql_query,
            page_content_field=self.valid_page_content_field,
            secret=self.fauna_secret,
            metadata_fields=self.valid_metadata_fields,
        )
        docs = loader.load()
        assert len(docs) > 0  # assuming the query returns at least one document
        for doc in docs:
            assert (
                doc.page_content != ""
            )  # assuming that every document has page_content
            assert (
                "id" in doc.metadata and doc.metadata["id"] != ""
            )  # assuming that every document has 'id'
            assert (
                "ts" in doc.metadata and doc.metadata["ts"] != ""
            )  # assuming that every document has 'ts'