langchain/libs/partners/elasticsearch/tests/fake_embeddings.py

"""Fake Embedding class for testing purposes."""

from typing import List

from langchain_core.embeddings import Embeddings

fake_texts = ["foo", "bar", "baz"]


class FakeEmbeddings(Embeddings):
    """Fake embeddings functionality for testing."""

    def embed_documents(self, texts: List[str]) -> List[List[float]]:
        """Return simple embeddings.
        Embeddings encode each text as its index."""
        return [[float(1.0)] * 9 + [float(i)] for i in range(len(texts))]

    async def aembed_documents(self, texts: List[str]) -> List[List[float]]:
        return self.embed_documents(texts)

    def embed_query(self, text: str) -> List[float]:
        """Return constant query embeddings.
        Embeddings are identical to embed_documents(texts)[0].
        Distance to each text will be that text's index,
        as it was passed to embed_documents."""
        return [float(1.0)] * 9 + [float(0.0)]

    async def aembed_query(self, text: str) -> List[float]:
        return self.embed_query(text)


class ConsistentFakeEmbeddings(FakeEmbeddings):
    """Fake embeddings which remember all the texts seen so far to return consistent
    vectors for the same texts."""

    def __init__(self, dimensionality: int = 10) -> None:
        self.known_texts: List[str] = []
        self.dimensionality = dimensionality

    def embed_documents(self, texts: List[str]) -> List[List[float]]:
        """Return consistent embeddings for each text seen so far."""
        out_vectors = []
        for text in texts:
            if text not in self.known_texts:
                self.known_texts.append(text)
            vector = [float(1.0)] * (self.dimensionality - 1) + [
                float(self.known_texts.index(text))
            ]
            out_vectors.append(vector)
        return out_vectors

    def embed_query(self, text: str) -> List[float]:
        """Return consistent embeddings for the text, if seen before, or a constant
        one if the text is unknown."""
        return self.embed_documents([text])[0]
partners: add Elasticsearch package (#17467) ### Description This PR moves the Elasticsearch classes to a partners package. Note that we will not move (and later remove) `ElasticKnnSearch`. It were previously deprecated. `ElasticVectorSearch` is going to stay in the community package since it is used quite a lot still. Also note that I left the `ElasticsearchTranslator` for self query untouched because it resides in main `langchain` package. ### Dependencies There will be another PR that updates the notebooks (potentially pulling them into the partners package) and templates and removes the classes from the community package, see https://github.com/langchain-ai/langchain/pull/17468 #### Open question How to make the transition smooth for users? Do we move the import aliases and require people to install `langchain-elasticsearch`? Or do we remove the import aliases from the `langchain` package all together? What has worked well for other partner packages? --------- Co-authored-by: Erick Friis <erick@langchain.dev> 2024-02-26 23:19:47 +00:00			`"""Fake Embedding class for testing purposes."""`

			`from typing import List`

			`from langchain_core.embeddings import Embeddings`

			`fake_texts = ["foo", "bar", "baz"]`


			`class FakeEmbeddings(Embeddings):`
			`"""Fake embeddings functionality for testing."""`

			`def embed_documents(self, texts: List[str]) -> List[List[float]]:`
			`"""Return simple embeddings.`
			`Embeddings encode each text as its index."""`
			`return [[float(1.0)] * 9 + [float(i)] for i in range(len(texts))]`

			`async def aembed_documents(self, texts: List[str]) -> List[List[float]]:`
			`return self.embed_documents(texts)`

			`def embed_query(self, text: str) -> List[float]:`
			`"""Return constant query embeddings.`
			`Embeddings are identical to embed_documents(texts)[0].`
			`Distance to each text will be that text's index,`
			`as it was passed to embed_documents."""`
			`return [float(1.0)] * 9 + [float(0.0)]`

			`async def aembed_query(self, text: str) -> List[float]:`
			`return self.embed_query(text)`


			`class ConsistentFakeEmbeddings(FakeEmbeddings):`
			`"""Fake embeddings which remember all the texts seen so far to return consistent`
			`vectors for the same texts."""`

			`def __init__(self, dimensionality: int = 10) -> None:`
			`self.known_texts: List[str] = []`
			`self.dimensionality = dimensionality`

			`def embed_documents(self, texts: List[str]) -> List[List[float]]:`
			`"""Return consistent embeddings for each text seen so far."""`
			`out_vectors = []`
			`for text in texts:`
			`if text not in self.known_texts:`
			`self.known_texts.append(text)`
			`vector = [float(1.0)] * (self.dimensionality - 1) + [`
			`float(self.known_texts.index(text))`
			`]`
			`out_vectors.append(vector)`
			`return out_vectors`

			`def embed_query(self, text: str) -> List[float]:`
			`"""Return consistent embeddings for the text, if seen before, or a constant`
			`one if the text is unknown."""`
			`return self.embed_documents([text])[0]`