Harrison/msg files (#2375)

Co-authored-by: Sahil Masand <masand.sahil@gmail.com> Co-authored-by: Sahil Masand <masands@cbh.com.au>
1 year ago · e90d007db3
parent 585f60a5aa
commit e90d007db3
6 changed files with 143 additions and 6 deletions
--- a/docs/modules/indexes/document_loaders/examples/email.ipynb
+++ b/docs/modules/indexes/document_loaders/examples/email.ipynb
@ -7,7 +7,15 @@
   "source": [
    "# Email\n",
    "\n",
-    "This notebook shows how to load email (`.eml`) files."
+    "This notebook shows how to load email (`.eml`) and Microsoft Outlook (`.msg`) files."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "89caa348",
+   "metadata": {},
+   "source": [
+    "## Using Unstructured"
   ]
  },
  {
@ -66,7 +74,7 @@
   "id": "8bf50cba",
   "metadata": {},
   "source": [
-    "## Retain Elements\n",
+    "### Retain Elements\n",
    "\n",
    "Under the hood, Unstructured creates different \"elements\" for different chunks of text. By default we combine those together, but you can easily keep that separation by specifying `mode=\"elements\"`."
   ]
@ -112,10 +120,69 @@
    "data[0]"
   ]
  },
+  {
+   "cell_type": "markdown",
+   "id": "6a074515",
+   "metadata": {},
+   "source": [
+    "## Using OutlookMessageLoader"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "id": "1e7a8444",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from langchain.document_loaders import OutlookMessageLoader"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "id": "77a055e6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "loader = OutlookMessageLoader('example_data/fake-email.msg')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "id": "789882de",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "data = loader.load()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "id": "46aa0632",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "Document(page_content='This is a test email to experiment with the MS Outlook MSG Extractor\\r\\n\\r\\n\\r\\n-- \\r\\n\\r\\n\\r\\nKind regards\\r\\n\\r\\n\\r\\n\\r\\n\\r\\nBrian Zhou\\r\\n\\r\\n', metadata={'subject': 'Test for TIF files', 'sender': 'Brian Zhou <brizhou@gmail.com>', 'date': 'Mon, 18 Nov 2013 16:26:24 +0800'})"
+      ]
+     },
+     "execution_count": 11,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "data[0]"
+   ]
+  },
  {
   "cell_type": "code",
   "execution_count": null,
-   "id": "6a074515",
+   "id": "2b223ce2",
   "metadata": {},
   "outputs": [],
   "source": []
--- a/docs/modules/indexes/document_loaders/examples/example_data/fake-email.msg
+++ b/docs/modules/indexes/document_loaders/examples/example_data/fake-email.msg
--- a/langchain/document_loaders/init.py
+++ b/langchain/document_loaders/init.py
@ -11,13 +11,18 @@ from langchain.document_loaders.azure_blob_storage_file import (
 )
 from langchain.document_loaders.bigquery import BigQueryLoader
 from langchain.document_loaders.blackboard import BlackboardLoader
-from langchain.document_loaders.college_confidential import CollegeConfidentialLoader
+from langchain.document_loaders.college_confidential import (
+    CollegeConfidentialLoader,
+)
 from langchain.document_loaders.conllu import CoNLLULoader
 from langchain.document_loaders.csv_loader import CSVLoader
 from langchain.document_loaders.dataframe import DataFrameLoader
 from langchain.document_loaders.directory import DirectoryLoader
 from langchain.document_loaders.duckdb_loader import DuckDBLoader
-from langchain.document_loaders.email import UnstructuredEmailLoader
+from langchain.document_loaders.email import (
+    OutlookMessageLoader,
+    UnstructuredEmailLoader,
+)
 from langchain.document_loaders.epub import UnstructuredEPubLoader
 from langchain.document_loaders.evernote import EverNoteLoader
 from langchain.document_loaders.facebook_chat import FacebookChatLoader
@ -61,7 +66,9 @@ from langchain.document_loaders.url import UnstructuredURLLoader
 from langchain.document_loaders.url_selenium import SeleniumURLLoader
 from langchain.document_loaders.web_base import WebBaseLoader
 from langchain.document_loaders.whatsapp_chat import WhatsAppChatLoader
-from langchain.document_loaders.word_document import UnstructuredWordDocumentLoader
+from langchain.document_loaders.word_document import (
+    UnstructuredWordDocumentLoader,
+)
 from langchain.document_loaders.youtube import (
    GoogleApiClient,
    GoogleApiYoutubeLoader,
@ -89,6 +96,7 @@ __all__ = [
    "UnstructuredImageLoader",
    "ObsidianLoader",
    "UnstructuredEmailLoader",
+    "OutlookMessageLoader",
    "UnstructuredEPubLoader",
    "UnstructuredMarkdownLoader",
    "RoamLoader",
--- a/langchain/document_loaders/email.py
+++ b/langchain/document_loaders/email.py
@ -1,6 +1,9 @@
 """Loader that loads email files."""
+import os
 from typing import List

+from langchain.docstore.document import Document
+from langchain.document_loaders.base import BaseLoader
 from langchain.document_loaders.unstructured import UnstructuredFileLoader


@ -11,3 +14,42 @@ class UnstructuredEmailLoader(UnstructuredFileLoader):
        from unstructured.partition.email import partition_email

        return partition_email(filename=self.file_path)
+
+
+class OutlookMessageLoader(BaseLoader):
+    """
+    Loader that loads Outlook Message files using extract_msg.
+    https://github.com/TeamMsgExtractor/msg-extractor
+    """
+
+    def __init__(self, file_path: str):
+        """Initialize with file path."""
+
+        self.file_path = file_path
+
+        if not os.path.isfile(self.file_path):
+            raise ValueError("File path %s is not a valid file" % self.file_path)
+
+        try:
+            import extract_msg  # noqa:F401
+        except ImportError:
+            raise ImportError(
+                "extract_msg is not installed. Please install it with "
+                "`pip install extract_msg`"
+            )
+
+    def load(self) -> List[Document]:
+        """Load data into document objects."""
+        import extract_msg
+
+        msg = extract_msg.Message(self.file_path)
+        return [
+            Document(
+                page_content=msg.body,
+                metadata={
+                    "subject": msg.subject,
+                    "sender": msg.sender,
+                    "date": msg.date,
+                },
+            )
+        ]
--- a/tests/integration_tests/document_loaders/test_email.py
+++ b/tests/integration_tests/document_loaders/test_email.py
@ -0,0 +1,20 @@
+from pathlib import Path
+
+from langchain.document_loaders import OutlookMessageLoader
+
+
+def test_outlook_message_loader() -> None:
+    """Test OutlookMessageLoader."""
+    file_path = Path(__file__).parent.parent / "examples/hello.msg"
+    loader = OutlookMessageLoader(str(file_path))
+    docs = loader.load()
+
+    assert len(docs) == 1
+    assert docs[0].metadata["subject"] == "Test for TIF files"
+    assert docs[0].metadata["sender"] == "Brian Zhou <brizhou@gmail.com>"
+    assert docs[0].metadata["date"] == "Mon, 18 Nov 2013 16:26:24 +0800"
+    assert docs[0].page_content == (
+        "This is a test email to experiment with the MS Outlook MSG "
+        "Extractor\r\n\r\n\r\n-- \r\n\r\n\r\nKind regards"
+        "\r\n\r\n\r\n\r\n\r\nBrian Zhou\r\n\r\n"
+    )
--- a/tests/integration_tests/examples/hello.msg
+++ b/tests/integration_tests/examples/hello.msg