diff --git a/langchain/document_loaders/sitemap.py b/langchain/document_loaders/sitemap.py index 4a2c1d2809..b376d0f1f3 100644 --- a/langchain/document_loaders/sitemap.py +++ b/langchain/document_loaders/sitemap.py @@ -58,7 +58,7 @@ class SitemapLoader(WebBaseLoader): els = self.parse_sitemap(soup) - results = self.scrape_all([el["loc"] for el in els if "loc" in el]) + results = self.scrape_all([el["loc"].strip() for el in els if "loc" in el]) return [ Document(