langchain/libs/community/tests/integration_tests/test_nuclia_transformer.py

import asyncio
import json
from typing import Any
from unittest import mock

from langchain_core.documents import Document

from langchain_community.document_transformers.nuclia_text_transform import (
    NucliaTextTransformer,
)
from langchain_community.tools.nuclia.tool import NucliaUnderstandingAPI


def fakerun(**args: Any) -> Any:
    async def run(self: Any, **args: Any) -> str:
        await asyncio.sleep(0.1)
        data = {
            "extracted_text": [{"body": {"text": "Hello World"}}],
            "file_extracted_data": [{"language": "en"}],
            "field_metadata": [
                {
                    "metadata": {
                        "metadata": {
                            "paragraphs": [
                                {"end": 66, "sentences": [{"start": 1, "end": 67}]}
                            ]
                        }
                    }
                }
            ],
        }
        return json.dumps(data)

    return run


async def test_nuclia_loader() -> None:
    with mock.patch(
        "langchain_community.tools.nuclia.tool.NucliaUnderstandingAPI._arun",
        new_callable=fakerun,
    ):
        with mock.patch("os.environ.get", return_value="_a_key_"):
            nua = NucliaUnderstandingAPI(enable_ml=False)
            documents = [
                Document(page_content="Hello, my name is Alice", metadata={}),
                Document(page_content="Hello, my name is Bob", metadata={}),
            ]
            nuclia_transformer = NucliaTextTransformer(nua)
            transformed_documents = await nuclia_transformer.atransform_documents(
                documents
            )
            assert len(transformed_documents) == 2
            assert (
                transformed_documents[0].metadata["nuclia"]["file"]["language"] == "en"
            )
            assert (
                len(
                    transformed_documents[1].metadata["nuclia"]["metadata"]["metadata"][
                        "metadata"
                    ]["paragraphs"]
                )
                == 1
            )
Bagatur/revert revert nuclia (#8833) 1 year ago			`import asyncio`
			`import json`
			`from typing import Any`
			`from unittest import mock`

multiple: langchain 0.2 in master (#21191) 0.2rc migrations - [x] Move memory - [x] Move remaining retrievers - [x] graph_qa chains - [x] some dependency from evaluation code potentially on math utils - [x] Move openapi chain from `langchain.chains.api.openapi` to `langchain_community.chains.openapi` - [x] Migrate `langchain.chains.ernie_functions` to `langchain_community.chains.ernie_functions` - [x] migrate `langchain/chains/llm_requests.py` to `langchain_community.chains.llm_requests` - [x] Moving `langchain_community.cross_enoders.base:BaseCrossEncoder` -> `langchain_community.retrievers.document_compressors.cross_encoder:BaseCrossEncoder` (namespace not ideal, but it needs to be moved to `langchain` to avoid circular deps) - [x] unit tests langchain -- add pytest.mark.community to some unit tests that will stay in langchain - [x] unit tests community -- move unit tests that depend on community to community - [x] mv integration tests that depend on community to community - [x] mypy checks Other todo - [x] Make deprecation warnings not noisy (need to use warn deprecated and check that things are implemented properly) - [x] Update deprecation messages with timeline for code removal (likely we actually won't be removing things until 0.4 release) -- will give people more time to transition their code. - [ ] Add information to deprecation warning to show users how to migrate their code base using langchain-cli - [ ] Remove any unnecessary requirements in langchain (e.g., is SQLALchemy required?) --------- Co-authored-by: Erick Friis <erick@langchain.dev> 5 months ago			`from langchain_core.documents import Document`

docs, experimental[patch], langchain[patch], community[patch]: update storage imports (#15429) ran ```bash g grep -l "langchain.vectorstores" \| xargs -L 1 sed -i '' "s/langchain\.vectorstores/langchain_community.vectorstores/g" g grep -l "langchain.document_loaders" \| xargs -L 1 sed -i '' "s/langchain\.document_loaders/langchain_community.document_loaders/g" g grep -l "langchain.chat_loaders" \| xargs -L 1 sed -i '' "s/langchain\.chat_loaders/langchain_community.chat_loaders/g" g grep -l "langchain.document_transformers" \| xargs -L 1 sed -i '' "s/langchain\.document_transformers/langchain_community.document_transformers/g" g grep -l "langchain\.graphs" \| xargs -L 1 sed -i '' "s/langchain\.graphs/langchain_community.graphs/g" g grep -l "langchain\.memory\.chat_message_histories" \| xargs -L 1 sed -i '' "s/langchain\.memory\.chat_message_histories/langchain_community.chat_message_histories/g" gco master libs/langchain/tests/unit_tests//test_imports.py gco master libs/langchain/tests/unit_tests/*/test_public_api.py ``` 9 months ago			`from langchain_community.document_transformers.nuclia_text_transform import (`
			`NucliaTextTransformer,`
			`)`
langchain[patch], experimental[patch], docs: update tools imports (#15433) 9 months ago			`from langchain_community.tools.nuclia.tool import NucliaUnderstandingAPI`
Bagatur/revert revert nuclia (#8833) 1 year ago

			`def fakerun(**args: Any) -> Any:`
			`async def run(self: Any, **args: Any) -> str:`
			`await asyncio.sleep(0.1)`
			`data = {`
			`"extracted_text": [{"body": {"text": "Hello World"}}],`
			`"file_extracted_data": [{"language": "en"}],`
			`"field_metadata": [`
			`{`
			`"metadata": {`
			`"metadata": {`
			`"paragraphs": [`
			`{"end": 66, "sentences": [{"start": 1, "end": 67}]}`
			`]`
			`}`
			`}`
			`}`
			`],`
			`}`
			`return json.dumps(data)`

			`return run`


			`async def test_nuclia_loader() -> None:`
			`with mock.patch(`
langchain[patch], experimental[patch], docs: update tools imports (#15433) 9 months ago			`"langchain_community.tools.nuclia.tool.NucliaUnderstandingAPI._arun",`
			`new_callable=fakerun,`
Bagatur/revert revert nuclia (#8833) 1 year ago			`):`
			`with mock.patch("os.environ.get", return_value="_a_key_"):`
			`nua = NucliaUnderstandingAPI(enable_ml=False)`
			`documents = [`
			`Document(page_content="Hello, my name is Alice", metadata={}),`
			`Document(page_content="Hello, my name is Bob", metadata={}),`
			`]`
			`nuclia_transformer = NucliaTextTransformer(nua)`
			`transformed_documents = await nuclia_transformer.atransform_documents(`
			`documents`
			`)`
			`assert len(transformed_documents) == 2`
			`assert (`
			`transformed_documents[0].metadata["nuclia"]["file"]["language"] == "en"`
			`)`
			`assert (`
			`len(`
			`transformed_documents[1].metadata["nuclia"]["metadata"]["metadata"][`
			`"metadata"`
			`]["paragraphs"]`
			`)`
			`== 1`
			`)`