langchain/tests/unit_tests/test_text_splitter.py

"""Test text splitting functionality."""
import pytest

from langchain.docstore.document import Document
from langchain.text_splitter import (
    CharacterTextSplitter,
    PythonCodeTextSplitter,
    RecursiveCharacterTextSplitter,
)

FAKE_PYTHON_TEXT = """
class Foo:

    def bar():


def foo():

def testing_func():

def bar():
"""


def test_character_text_splitter() -> None:
    """Test splitting by character count."""
    text = "foo bar baz 123"
    splitter = CharacterTextSplitter(separator=" ", chunk_size=7, chunk_overlap=3)
    output = splitter.split_text(text)
    expected_output = ["foo bar", "bar baz", "baz 123"]
    assert output == expected_output


def test_character_text_splitter_empty_doc() -> None:
    """Test splitting by character count doesn't create empty documents."""
    text = "foo  bar"
    splitter = CharacterTextSplitter(separator=" ", chunk_size=2, chunk_overlap=0)
    output = splitter.split_text(text)
    expected_output = ["foo", "bar"]
    assert output == expected_output


def test_character_text_splitter_separtor_empty_doc() -> None:
    """Test edge cases are separators."""
    text = "f b"
    splitter = CharacterTextSplitter(separator=" ", chunk_size=2, chunk_overlap=0)
    output = splitter.split_text(text)
    expected_output = ["f", "b"]
    assert output == expected_output


def test_character_text_splitter_long() -> None:
    """Test splitting by character count on long words."""
    text = "foo bar baz a a"
    splitter = CharacterTextSplitter(separator=" ", chunk_size=3, chunk_overlap=1)
    output = splitter.split_text(text)
    expected_output = ["foo", "bar", "baz", "a a"]
    assert output == expected_output


def test_character_text_splitter_short_words_first() -> None:
    """Test splitting by character count when shorter words are first."""
    text = "a a foo bar baz"
    splitter = CharacterTextSplitter(separator=" ", chunk_size=3, chunk_overlap=1)
    output = splitter.split_text(text)
    expected_output = ["a a", "foo", "bar", "baz"]
    assert output == expected_output


def test_character_text_splitter_longer_words() -> None:
    """Test splitting by characters when splits not found easily."""
    text = "foo bar baz 123"
    splitter = CharacterTextSplitter(separator=" ", chunk_size=1, chunk_overlap=1)
    output = splitter.split_text(text)
    expected_output = ["foo", "bar", "baz", "123"]
    assert output == expected_output


def test_character_text_splitting_args() -> None:
    """Test invalid arguments."""
    with pytest.raises(ValueError):
        CharacterTextSplitter(chunk_size=2, chunk_overlap=4)


def test_merge_splits() -> None:
    """Test merging splits with a given separator."""
    splitter = CharacterTextSplitter(separator=" ", chunk_size=9, chunk_overlap=2)
    splits = ["foo", "bar", "baz"]
    expected_output = ["foo bar", "baz"]
    output = splitter._merge_splits(splits, separator=" ")
    assert output == expected_output


def test_create_documents() -> None:
    """Test create documents method."""
    texts = ["foo bar", "baz"]
    splitter = CharacterTextSplitter(separator=" ", chunk_size=3, chunk_overlap=0)
    docs = splitter.create_documents(texts)
    expected_docs = [
        Document(page_content="foo"),
        Document(page_content="bar"),
        Document(page_content="baz"),
    ]
    assert docs == expected_docs


def test_create_documents_with_metadata() -> None:
    """Test create documents with metadata method."""
    texts = ["foo bar", "baz"]
    splitter = CharacterTextSplitter(separator=" ", chunk_size=3, chunk_overlap=0)
    docs = splitter.create_documents(texts, [{"source": "1"}, {"source": "2"}])
    expected_docs = [
        Document(page_content="foo", metadata={"source": "1"}),
        Document(page_content="bar", metadata={"source": "1"}),
        Document(page_content="baz", metadata={"source": "2"}),
    ]
    assert docs == expected_docs


def test_metadata_not_shallow() -> None:
    """Test that metadatas are not shallow."""
    texts = ["foo bar"]
    splitter = CharacterTextSplitter(separator=" ", chunk_size=3, chunk_overlap=0)
    docs = splitter.create_documents(texts, [{"source": "1"}])
    expected_docs = [
        Document(page_content="foo", metadata={"source": "1"}),
        Document(page_content="bar", metadata={"source": "1"}),
    ]
    assert docs == expected_docs
    docs[0].metadata["foo"] = 1
    assert docs[0].metadata == {"source": "1", "foo": 1}
    assert docs[1].metadata == {"source": "1"}


def test_iterative_text_splitter() -> None:
    """Test iterative text splitter."""
    text = """Hi.\n\nI'm Harrison.\n\nHow? Are? You?\nOkay then f f f f.
This is a weird text to write, but gotta test the splittingggg some how.

Bye!\n\n-H."""
    splitter = RecursiveCharacterTextSplitter(chunk_size=10, chunk_overlap=1)
    output = splitter.split_text(text)
    expected_output = [
        "Hi.",
        "I'm",
        "Harrison.",
        "How? Are?",
        "You?",
        "Okay then",
        "f f f f.",
        "This is a",
        "weird",
        "text to",
        "write,",
        "but gotta",
        "test the",
        "splitting",
        "gggg",
        "some how.",
        "Bye!",
        "-H.",
    ]
    assert output == expected_output


def test_split_documents() -> None:
    """Test split_documents."""
    splitter = CharacterTextSplitter(separator="", chunk_size=1, chunk_overlap=0)
    docs = [
        Document(page_content="foo", metadata={"source": "1"}),
        Document(page_content="bar", metadata={"source": "2"}),
        Document(page_content="baz", metadata={"source": "1"}),
    ]
    expected_output = [
        Document(page_content="f", metadata={"source": "1"}),
        Document(page_content="o", metadata={"source": "1"}),
        Document(page_content="o", metadata={"source": "1"}),
        Document(page_content="b", metadata={"source": "2"}),
        Document(page_content="a", metadata={"source": "2"}),
        Document(page_content="r", metadata={"source": "2"}),
        Document(page_content="b", metadata={"source": "1"}),
        Document(page_content="a", metadata={"source": "1"}),
        Document(page_content="z", metadata={"source": "1"}),
    ]
    assert splitter.split_documents(docs) == expected_output


def test_python_text_splitter() -> None:
    splitter = PythonCodeTextSplitter(chunk_size=30, chunk_overlap=0)
    splits = splitter.split_text(FAKE_PYTHON_TEXT)
    split_0 = """class Foo:\n\n    def bar():"""
    split_1 = """def foo():"""
    split_2 = """def testing_func():"""
    split_3 = """def bar():"""
    expected_splits = [split_0, split_1, split_2, split_3]
    assert splits == expected_splits
Harrison/map reduce (#36) 2022-11-01 03:17:22 +00:00			`"""Test text splitting functionality."""`
			`import pytest`

Harrison/improve data augmented generation docs (#390) Co-authored-by: cameronccohen <cameron.c.cohen@gmail.com> Co-authored-by: Cameron Cohen <cameron.cohen@quantco.com> 2022-12-21 03:24:08 +00:00			`from langchain.docstore.document import Document`
smart text splitter (#530) smart text splitter that iteratively tries different separators until it works! 2023-01-08 23:11:10 +00:00			`from langchain.text_splitter import (`
			`CharacterTextSplitter,`
Harrison/text splitter (#5417) adds support for keeping separators around when using recursive text splitter 2023-05-29 23:56:31 +00:00			`PythonCodeTextSplitter,`
smart text splitter (#530) smart text splitter that iteratively tries different separators until it works! 2023-01-08 23:11:10 +00:00			`RecursiveCharacterTextSplitter,`
			`)`
Harrison/map reduce (#36) 2022-11-01 03:17:22 +00:00
Harrison/text splitter (#5417) adds support for keeping separators around when using recursive text splitter 2023-05-29 23:56:31 +00:00			`FAKE_PYTHON_TEXT = """`
			`class Foo:`

			`def bar():`


			`def foo():`

			`def testing_func():`

			`def bar():`
			`"""`

Harrison/map reduce (#36) 2022-11-01 03:17:22 +00:00
			`def test_character_text_splitter() -> None:`
			`"""Test splitting by character count."""`
			`text = "foo bar baz 123"`
fix text splitter (#375) 2022-12-19 01:21:43 +00:00			`splitter = CharacterTextSplitter(separator=" ", chunk_size=7, chunk_overlap=3)`
Harrison/map reduce (#36) 2022-11-01 03:17:22 +00:00			`output = splitter.split_text(text)`
			`expected_output = ["foo bar", "bar baz", "baz 123"]`
			`assert output == expected_output`


Harrison/fix splitting (#563) fix issue where text splitting could possibly create empty docs 2023-01-09 03:19:32 +00:00			`def test_character_text_splitter_empty_doc() -> None:`
			`"""Test splitting by character count doesn't create empty documents."""`
			`text = "foo bar"`
			`splitter = CharacterTextSplitter(separator=" ", chunk_size=2, chunk_overlap=0)`
			`output = splitter.split_text(text)`
			`expected_output = ["foo", "bar"]`
			`assert output == expected_output`


Harrison/fix text splitter (#1511) Co-authored-by: ajaysolanky <ajsolanky@gmail.com> Co-authored-by: Ajay Solanky <ajaysolanky@saw-l14668307kd.myfiosgateway.com> 2023-03-07 23:42:28 +00:00			`def test_character_text_splitter_separtor_empty_doc() -> None:`
			`"""Test edge cases are separators."""`
			`text = "f b"`
			`splitter = CharacterTextSplitter(separator=" ", chunk_size=2, chunk_overlap=0)`
			`output = splitter.split_text(text)`
			`expected_output = ["f", "b"]`
			`assert output == expected_output`


fix text splitter (#375) 2022-12-19 01:21:43 +00:00			`def test_character_text_splitter_long() -> None:`
			`"""Test splitting by character count on long words."""`
			`text = "foo bar baz a a"`
			`splitter = CharacterTextSplitter(separator=" ", chunk_size=3, chunk_overlap=1)`
			`output = splitter.split_text(text)`
			`expected_output = ["foo", "bar", "baz", "a a"]`
			`assert output == expected_output`


smart text splitter (#530) smart text splitter that iteratively tries different separators until it works! 2023-01-08 23:11:10 +00:00			`def test_character_text_splitter_short_words_first() -> None:`
			`"""Test splitting by character count when shorter words are first."""`
			`text = "a a foo bar baz"`
			`splitter = CharacterTextSplitter(separator=" ", chunk_size=3, chunk_overlap=1)`
			`output = splitter.split_text(text)`
			`expected_output = ["a a", "foo", "bar", "baz"]`
			`assert output == expected_output`


Harrison/map reduce (#36) 2022-11-01 03:17:22 +00:00			`def test_character_text_splitter_longer_words() -> None:`
			`"""Test splitting by characters when splits not found easily."""`
			`text = "foo bar baz 123"`
			`splitter = CharacterTextSplitter(separator=" ", chunk_size=1, chunk_overlap=1)`
			`output = splitter.split_text(text)`
			`expected_output = ["foo", "bar", "baz", "123"]`
			`assert output == expected_output`


			`def test_character_text_splitting_args() -> None:`
			`"""Test invalid arguments."""`
			`with pytest.raises(ValueError):`
			`CharacterTextSplitter(chunk_size=2, chunk_overlap=4)`
Harrison/improve data augmented generation docs (#390) Co-authored-by: cameronccohen <cameron.c.cohen@gmail.com> Co-authored-by: Cameron Cohen <cameron.cohen@quantco.com> 2022-12-21 03:24:08 +00:00

Add unit test for _merge_splits function (#3513) This commit adds a new unit test for the _merge_splits function in the text splitter. The new test verifies that the function merges text into chunks of the correct size and overlap, using a specified separator. The test passes on the current implementation of the function. 2023-04-25 17:02:59 +00:00			`def test_merge_splits() -> None:`
			`"""Test merging splits with a given separator."""`
			`splitter = CharacterTextSplitter(separator=" ", chunk_size=9, chunk_overlap=2)`
			`splits = ["foo", "bar", "baz"]`
			`expected_output = ["foo bar", "baz"]`
			`output = splitter._merge_splits(splits, separator=" ")`
			`assert output == expected_output`


Harrison/improve data augmented generation docs (#390) Co-authored-by: cameronccohen <cameron.c.cohen@gmail.com> Co-authored-by: Cameron Cohen <cameron.cohen@quantco.com> 2022-12-21 03:24:08 +00:00			`def test_create_documents() -> None:`
			`"""Test create documents method."""`
			`texts = ["foo bar", "baz"]`
			`splitter = CharacterTextSplitter(separator=" ", chunk_size=3, chunk_overlap=0)`
			`docs = splitter.create_documents(texts)`
			`expected_docs = [`
			`Document(page_content="foo"),`
			`Document(page_content="bar"),`
			`Document(page_content="baz"),`
			`]`
			`assert docs == expected_docs`


			`def test_create_documents_with_metadata() -> None:`
			`"""Test create documents with metadata method."""`
			`texts = ["foo bar", "baz"]`
			`splitter = CharacterTextSplitter(separator=" ", chunk_size=3, chunk_overlap=0)`
			`docs = splitter.create_documents(texts, [{"source": "1"}, {"source": "2"}])`
			`expected_docs = [`
			`Document(page_content="foo", metadata={"source": "1"}),`
			`Document(page_content="bar", metadata={"source": "1"}),`
			`Document(page_content="baz", metadata={"source": "2"}),`
			`]`
			`assert docs == expected_docs`
smart text splitter (#530) smart text splitter that iteratively tries different separators until it works! 2023-01-08 23:11:10 +00:00

Harrison/shallow metadata (#1599) Co-authored-by: Jesse Zhang <jessetanzhang@gmail.com> 2023-03-11 17:18:25 +00:00			`def test_metadata_not_shallow() -> None:`
			`"""Test that metadatas are not shallow."""`
			`texts = ["foo bar"]`
			`splitter = CharacterTextSplitter(separator=" ", chunk_size=3, chunk_overlap=0)`
			`docs = splitter.create_documents(texts, [{"source": "1"}])`
			`expected_docs = [`
			`Document(page_content="foo", metadata={"source": "1"}),`
			`Document(page_content="bar", metadata={"source": "1"}),`
			`]`
			`assert docs == expected_docs`
			`docs[0].metadata["foo"] = 1`
			`assert docs[0].metadata == {"source": "1", "foo": 1}`
			`assert docs[1].metadata == {"source": "1"}`


smart text splitter (#530) smart text splitter that iteratively tries different separators until it works! 2023-01-08 23:11:10 +00:00			`def test_iterative_text_splitter() -> None:`
			`"""Test iterative text splitter."""`
			`text = """Hi.\n\nI'm Harrison.\n\nHow? Are? You?\nOkay then f f f f.`
			`This is a weird text to write, but gotta test the splittingggg some how.`

			`Bye!\n\n-H."""`
			`splitter = RecursiveCharacterTextSplitter(chunk_size=10, chunk_overlap=1)`
			`output = splitter.split_text(text)`
			`expected_output = [`
			`"Hi.",`
			`"I'm",`
			`"Harrison.",`
			`"How? Are?",`
			`"You?",`
Harrison/fix text splitter (#1511) Co-authored-by: ajaysolanky <ajsolanky@gmail.com> Co-authored-by: Ajay Solanky <ajaysolanky@saw-l14668307kd.myfiosgateway.com> 2023-03-07 23:42:28 +00:00			`"Okay then",`
smart text splitter (#530) smart text splitter that iteratively tries different separators until it works! 2023-01-08 23:11:10 +00:00			`"f f f f.",`
			`"This is a",`
Harrison/text splitter (#5417) adds support for keeping separators around when using recursive text splitter 2023-05-29 23:56:31 +00:00			`"weird",`
smart text splitter (#530) smart text splitter that iteratively tries different separators until it works! 2023-01-08 23:11:10 +00:00			`"text to",`
Harrison/text splitter (#5417) adds support for keeping separators around when using recursive text splitter 2023-05-29 23:56:31 +00:00			`"write,",`
			`"but gotta",`
			`"test the",`
			`"splitting",`
			`"gggg",`
smart text splitter (#530) smart text splitter that iteratively tries different separators until it works! 2023-01-08 23:11:10 +00:00			`"some how.",`
Harrison/text splitter (#5417) adds support for keeping separators around when using recursive text splitter 2023-05-29 23:56:31 +00:00			`"Bye!",`
			`"-H.",`
smart text splitter (#530) smart text splitter that iteratively tries different separators until it works! 2023-01-08 23:11:10 +00:00			`]`
			`assert output == expected_output`
Improve effeciency of TextSplitter.split_documents, iterate once (#5111) # Improve TextSplitter.split_documents, collect page_content and metadata in one iteration ## Who can review? Community members can review the PR once tests pass. Tag maintainers/contributors who might be interested: @eyurtsev In the case where documents is a generator that can only be iterated once making this change is a huge help. Otherwise a silent issue happens where metadata is empty for all documents when documents is a generator. So we expand the argument from `List[Document]` to `Union[Iterable[Document], Sequence[Document]]` --------- Co-authored-by: Steven Tartakovsky <tartakovsky.developer@gmail.com> 2023-05-23 03:00:24 +00:00

			`def test_split_documents() -> None:`
			`"""Test split_documents."""`
			`splitter = CharacterTextSplitter(separator="", chunk_size=1, chunk_overlap=0)`
			`docs = [`
			`Document(page_content="foo", metadata={"source": "1"}),`
			`Document(page_content="bar", metadata={"source": "2"}),`
			`Document(page_content="baz", metadata={"source": "1"}),`
			`]`
			`expected_output = [`
			`Document(page_content="f", metadata={"source": "1"}),`
			`Document(page_content="o", metadata={"source": "1"}),`
			`Document(page_content="o", metadata={"source": "1"}),`
			`Document(page_content="b", metadata={"source": "2"}),`
			`Document(page_content="a", metadata={"source": "2"}),`
			`Document(page_content="r", metadata={"source": "2"}),`
			`Document(page_content="b", metadata={"source": "1"}),`
			`Document(page_content="a", metadata={"source": "1"}),`
			`Document(page_content="z", metadata={"source": "1"}),`
			`]`
			`assert splitter.split_documents(docs) == expected_output`
Harrison/text splitter (#5417) adds support for keeping separators around when using recursive text splitter 2023-05-29 23:56:31 +00:00

			`def test_python_text_splitter() -> None:`
			`splitter = PythonCodeTextSplitter(chunk_size=30, chunk_overlap=0)`
			`splits = splitter.split_text(FAKE_PYTHON_TEXT)`
			`split_0 = """class Foo:\n\n def bar():"""`
			`split_1 = """def foo():"""`
			`split_2 = """def testing_func():"""`
			`split_3 = """def bar():"""`
			`expected_splits = [split_0, split_1, split_2, split_3]`
			`assert splits == expected_splits`