DocsGPT/application/parser/file/bulk.py

"""Simple reader that reads files of different formats from a directory."""
import logging
from pathlib import Path
from typing import Callable, Dict, List, Optional, Union

from application.parser.file.base import BaseReader
from application.parser.file.base_parser import BaseParser
from application.parser.file.docs_parser import DocxParser, PDFParser
from application.parser.file.epub_parser import EpubParser
from application.parser.file.html_parser import HTMLParser
from application.parser.file.markdown_parser import MarkdownParser
from application.parser.file.rst_parser import RstParser
from application.parser.file.tabular_parser import PandasCSVParser
from application.parser.schema.base import Document

DEFAULT_FILE_EXTRACTOR: Dict[str, BaseParser] = {
    ".pdf": PDFParser(),
    ".docx": DocxParser(),
    ".csv": PandasCSVParser(),
    ".epub": EpubParser(),
    ".md": MarkdownParser(),
    ".rst": RstParser(),
    ".html": HTMLParser(),
    ".mdx": MarkdownParser(),
}


class SimpleDirectoryReader(BaseReader):
    """Simple directory reader.

    Can read files into separate documents, or concatenates
    files into one document text.

    Args:
        input_dir (str): Path to the directory.
        input_files (List): List of file paths to read (Optional; overrides input_dir)
        exclude_hidden (bool): Whether to exclude hidden files (dotfiles).
        errors (str): how encoding and decoding errors are to be handled,
              see https://docs.python.org/3/library/functions.html#open
        recursive (bool): Whether to recursively search in subdirectories.
            False by default.
        required_exts (Optional[List[str]]): List of required extensions.
            Default is None.
        file_extractor (Optional[Dict[str, BaseParser]]): A mapping of file
            extension to a BaseParser class that specifies how to convert that file
            to text. See DEFAULT_FILE_EXTRACTOR.
        num_files_limit (Optional[int]): Maximum number of files to read.
            Default is None.
        file_metadata (Optional[Callable[str, Dict]]): A function that takes
            in a filename and returns a Dict of metadata for the Document.
            Default is None.
    """

    def __init__(
            self,
            input_dir: Optional[str] = None,
            input_files: Optional[List] = None,
            exclude_hidden: bool = True,
            errors: str = "ignore",
            recursive: bool = True,
            required_exts: Optional[List[str]] = None,
            file_extractor: Optional[Dict[str, BaseParser]] = None,
            num_files_limit: Optional[int] = None,
            file_metadata: Optional[Callable[[str], Dict]] = None,
    ) -> None:
        """Initialize with parameters."""
        super().__init__()

        if not input_dir and not input_files:
            raise ValueError("Must provide either `input_dir` or `input_files`.")

        self.errors = errors

        self.recursive = recursive
        self.exclude_hidden = exclude_hidden
        self.required_exts = required_exts
        self.num_files_limit = num_files_limit

        if input_files:
            self.input_files = []
            for path in input_files:
                print(path)
                input_file = Path(path)
                self.input_files.append(input_file)
        elif input_dir:
            self.input_dir = Path(input_dir)
            self.input_files = self._add_files(self.input_dir)

        self.file_extractor = file_extractor or DEFAULT_FILE_EXTRACTOR
        self.file_metadata = file_metadata

    def _add_files(self, input_dir: Path) -> List[Path]:
        """Add files."""
        input_files = sorted(input_dir.iterdir())
        new_input_files = []
        dirs_to_explore = []
        for input_file in input_files:
            if input_file.is_dir():
                if self.recursive:
                    dirs_to_explore.append(input_file)
            elif self.exclude_hidden and input_file.name.startswith("."):
                continue
            elif (
                    self.required_exts is not None
                    and input_file.suffix not in self.required_exts
            ):
                continue
            else:
                new_input_files.append(input_file)

        for dir_to_explore in dirs_to_explore:
            sub_input_files = self._add_files(dir_to_explore)
            new_input_files.extend(sub_input_files)

        if self.num_files_limit is not None and self.num_files_limit > 0:
            new_input_files = new_input_files[0: self.num_files_limit]

        # print total number of files added
        logging.debug(
            f"> [SimpleDirectoryReader] Total files added: {len(new_input_files)}"
        )

        return new_input_files

    def load_data(self, concatenate: bool = False) -> List[Document]:
        """Load data from the input directory.

        Args:
            concatenate (bool): whether to concatenate all files into one document.
                If set to True, file metadata is ignored.
                False by default.

        Returns:
            List[Document]: A list of documents.

        """
        data: Union[str, List[str]] = ""
        data_list: List[str] = []
        metadata_list = []
        for input_file in self.input_files:
            if input_file.suffix in self.file_extractor:
                parser = self.file_extractor[input_file.suffix]
                if not parser.parser_config_set:
                    parser.init_parser()
                data = parser.parse_file(input_file, errors=self.errors)
            else:
                # do standard read
                with open(input_file, "r", errors=self.errors) as f:
                    data = f.read()
            # Prepare metadata for this file
            if self.file_metadata is not None:
                file_metadata = self.file_metadata(str(input_file))
            else:
                # Provide a default empty metadata
                file_metadata = {'title': '', 'store': ''}
                # TODO: Find a case with no metadata and check if breaks anything 

            if isinstance(data, List):
                # Extend data_list with each item in the data list
                data_list.extend([str(d) for d in data])
                # For each item in the data list, add the file's metadata to metadata_list
                metadata_list.extend([file_metadata for _ in data])
            else:
                # Add the single piece of data to data_list
                data_list.append(str(data))
                # Add the file's metadata to metadata_list
                metadata_list.append(file_metadata)

        if concatenate:
            return [Document("\n".join(data_list))]
        elif self.file_metadata is not None:
            return [Document(d, extra_info=m) for d, m in zip(data_list, metadata_list)]
        else:
            return [Document(d) for d in data_list]
uploads backend first 2023-03-13 14:20:03 +00:00			`"""Simple reader that reads files of different formats from a directory."""`
			`import logging`
			`from pathlib import Path`
			`from typing import Callable, Dict, List, Optional, Union`

fix packaging and imports and introduce tests with pytest. still issues with celery worker. 2023-08-13 17:25:55 +00:00			`from application.parser.file.base import BaseReader`
			`from application.parser.file.base_parser import BaseParser`
			`from application.parser.file.docs_parser import DocxParser, PDFParser`
			`from application.parser.file.epub_parser import EpubParser`
			`from application.parser.file.html_parser import HTMLParser`
			`from application.parser.file.markdown_parser import MarkdownParser`
			`from application.parser.file.rst_parser import RstParser`
			`from application.parser.file.tabular_parser import PandasCSVParser`
			`from application.parser.schema.base import Document`
uploads backend first 2023-03-13 14:20:03 +00:00
			`DEFAULT_FILE_EXTRACTOR: Dict[str, BaseParser] = {`
			`".pdf": PDFParser(),`
			`".docx": DocxParser(),`
			`".csv": PandasCSVParser(),`
			`".epub": EpubParser(),`
			`".md": MarkdownParser(),`
			`".rst": RstParser(),`
			`".html": HTMLParser(),`
			`".mdx": MarkdownParser(),`
			`}`


			`class SimpleDirectoryReader(BaseReader):`
			`"""Simple directory reader.`

			`Can read files into separate documents, or concatenates`
			`files into one document text.`

			`Args:`
			`input_dir (str): Path to the directory.`
			`input_files (List): List of file paths to read (Optional; overrides input_dir)`
			`exclude_hidden (bool): Whether to exclude hidden files (dotfiles).`
			`errors (str): how encoding and decoding errors are to be handled,`
			`see https://docs.python.org/3/library/functions.html#open`
			`recursive (bool): Whether to recursively search in subdirectories.`
			`False by default.`
			`required_exts (Optional[List[str]]): List of required extensions.`
			`Default is None.`
			`file_extractor (Optional[Dict[str, BaseParser]]): A mapping of file`
			`extension to a BaseParser class that specifies how to convert that file`
			`to text. See DEFAULT_FILE_EXTRACTOR.`
			`num_files_limit (Optional[int]): Maximum number of files to read.`
			`Default is None.`
			`file_metadata (Optional[Callable[str, Dict]]): A function that takes`
			`in a filename and returns a Dict of metadata for the Document.`
			`Default is None.`
			`"""`

			`def __init__(`
Proper PEP8 formatting 2023-05-12 10:02:25 +00:00			`self,`
			`input_dir: Optional[str] = None,`
			`input_files: Optional[List] = None,`
			`exclude_hidden: bool = True,`
			`errors: str = "ignore",`
			`recursive: bool = True,`
			`required_exts: Optional[List[str]] = None,`
			`file_extractor: Optional[Dict[str, BaseParser]] = None,`
			`num_files_limit: Optional[int] = None,`
			`file_metadata: Optional[Callable[[str], Dict]] = None,`
uploads backend first 2023-03-13 14:20:03 +00:00			`) -> None:`
			`"""Initialize with parameters."""`
			`super().__init__()`

			`if not input_dir and not input_files:`
			raise ValueError("Must provide either `input_dir` or `input_files`.")

			`self.errors = errors`

			`self.recursive = recursive`
			`self.exclude_hidden = exclude_hidden`
			`self.required_exts = required_exts`
			`self.num_files_limit = num_files_limit`

			`if input_files:`
			`self.input_files = []`
			`for path in input_files:`
			`print(path)`
			`input_file = Path(path)`
			`self.input_files.append(input_file)`
			`elif input_dir:`
			`self.input_dir = Path(input_dir)`
			`self.input_files = self._add_files(self.input_dir)`

			`self.file_extractor = file_extractor or DEFAULT_FILE_EXTRACTOR`
			`self.file_metadata = file_metadata`

			`def _add_files(self, input_dir: Path) -> List[Path]:`
			`"""Add files."""`
			`input_files = sorted(input_dir.iterdir())`
			`new_input_files = []`
			`dirs_to_explore = []`
			`for input_file in input_files:`
			`if input_file.is_dir():`
			`if self.recursive:`
			`dirs_to_explore.append(input_file)`
			`elif self.exclude_hidden and input_file.name.startswith("."):`
			`continue`
			`elif (`
Proper PEP8 formatting 2023-05-12 10:02:25 +00:00			`self.required_exts is not None`
			`and input_file.suffix not in self.required_exts`
uploads backend first 2023-03-13 14:20:03 +00:00			`):`
			`continue`
			`else:`
			`new_input_files.append(input_file)`

			`for dir_to_explore in dirs_to_explore:`
			`sub_input_files = self._add_files(dir_to_explore)`
			`new_input_files.extend(sub_input_files)`

			`if self.num_files_limit is not None and self.num_files_limit > 0:`
Proper PEP8 formatting 2023-05-12 10:02:25 +00:00			`new_input_files = new_input_files[0: self.num_files_limit]`
uploads backend first 2023-03-13 14:20:03 +00:00
			`# print total number of files added`
			`logging.debug(`
			`f"> [SimpleDirectoryReader] Total files added: {len(new_input_files)}"`
			`)`

			`return new_input_files`

			`def load_data(self, concatenate: bool = False) -> List[Document]:`
			`"""Load data from the input directory.`

			`Args:`
			`concatenate (bool): whether to concatenate all files into one document.`
			`If set to True, file metadata is ignored.`
			`False by default.`

			`Returns:`
			`List[Document]: A list of documents.`

			`"""`
			`data: Union[str, List[str]] = ""`
			`data_list: List[str] = []`
			`metadata_list = []`
			`for input_file in self.input_files:`
			`if input_file.suffix in self.file_extractor:`
			`parser = self.file_extractor[input_file.suffix]`
			`if not parser.parser_config_set:`
			`parser.init_parser()`
			`data = parser.parse_file(input_file, errors=self.errors)`
			`else:`
			`# do standard read`
			`with open(input_file, "r", errors=self.errors) as f:`
			`data = f.read()`
Fixing ingestion metadata grouping 2024-02-25 13:03:18 +00:00			`# Prepare metadata for this file`
			`if self.file_metadata is not None:`
			`file_metadata = self.file_metadata(str(input_file))`
			`else:`
			`# Provide a default empty metadata`
			`file_metadata = {'title': '', 'store': ''}`
			`# TODO: Find a case with no metadata and check if breaks anything`

uploads backend first 2023-03-13 14:20:03 +00:00			`if isinstance(data, List):`
Fixing ingestion metadata grouping 2024-02-25 13:03:18 +00:00			`# Extend data_list with each item in the data list`
			`data_list.extend([str(d) for d in data])`
			`# For each item in the data list, add the file's metadata to metadata_list`
			`metadata_list.extend([file_metadata for _ in data])`
uploads backend first 2023-03-13 14:20:03 +00:00			`else:`
Fixing ingestion metadata grouping 2024-02-25 13:03:18 +00:00			`# Add the single piece of data to data_list`
uploads backend first 2023-03-13 14:20:03 +00:00			`data_list.append(str(data))`
Fixing ingestion metadata grouping 2024-02-25 13:03:18 +00:00			`# Add the file's metadata to metadata_list`
			`metadata_list.append(file_metadata)`
uploads backend first 2023-03-13 14:20:03 +00:00
			`if concatenate:`
			`return [Document("\n".join(data_list))]`
			`elif self.file_metadata is not None:`
			`return [Document(d, extra_info=m) for d, m in zip(data_list, metadata_list)]`
			`else:`
			`return [Document(d) for d in data_list]`