searxng/searx/engines/wikipedia.py

"""
 Wikipedia (Web)

 @website     https://en.wikipedia.org/api/rest_v1/
 @provide-api yes

 @using-api   yes
 @results     JSON
 @stable      yes
 @parse       url, infobox
"""

from urllib.parse import quote
from json import loads
from lxml.html import fromstring
from searx.utils import match_language, searx_useragent
from searx.raise_for_httperror import raise_for_httperror

# search-url
search_url = 'https://{language}.wikipedia.org/api/rest_v1/page/summary/{title}'
supported_languages_url = 'https://meta.wikimedia.org/wiki/List_of_Wikipedias'


# set language in base_url
def url_lang(lang):
    lang_pre = lang.split('-')[0]
    if lang_pre == 'all' or lang_pre not in supported_languages and lang_pre not in language_aliases:
        return 'en'
    return match_language(lang, supported_languages, language_aliases).split('-')[0]


# do search-request
def request(query, params):
    if query.islower():
        query = query.title()

    params['url'] = search_url.format(title=quote(query),
                                      language=url_lang(params['language']))

    params['headers']['User-Agent'] = searx_useragent()
    params['raise_for_httperror'] = False
    params['soft_max_redirects'] = 2

    return params


# get response from search-request
def response(resp):
    if resp.status_code == 404:
        return []
    raise_for_httperror(resp)

    results = []
    api_result = loads(resp.text)

    # skip disambiguation pages
    if api_result.get('type') != 'standard':
        return []

    title = api_result['title']
    wikipedia_link = api_result['content_urls']['desktop']['page']

    results.append({'url': wikipedia_link, 'title': title})

    results.append({'infobox': title,
                    'id': wikipedia_link,
                    'content': api_result.get('extract', ''),
                    'img_src': api_result.get('thumbnail', {}).get('source'),
                    'urls': [{'title': 'Wikipedia', 'url': wikipedia_link}]})

    return results


# get supported languages from their site
def _fetch_supported_languages(resp):
    supported_languages = {}
    dom = fromstring(resp.text)
    tables = dom.xpath('//table[contains(@class,"sortable")]')
    for table in tables:
        # exclude header row
        trs = table.xpath('.//tr')[1:]
        for tr in trs:
            td = tr.xpath('./td')
            code = td[3].xpath('./a')[0].text
            name = td[2].xpath('./a')[0].text
            english_name = td[1].xpath('./a')[0].text
            articles = int(td[4].xpath('./a/b')[0].text.replace(',', ''))
            # exclude languages with too few articles
            if articles >= 100:
                supported_languages[code] = {"name": name, "english_name": english_name, "articles": articles}

    return supported_languages
[enh] wikipedia infobox creates simple multilingual infobox using wikipedia's api 2016-03-14 06:32:36 +00:00			`"""`
			`Wikipedia (Web)`

use Wikipedia's REST v1 API 2020-09-08 05:05:21 +00:00			`@website https://en.wikipedia.org/api/rest_v1/`
[enh] wikipedia infobox creates simple multilingual infobox using wikipedia's api 2016-03-14 06:32:36 +00:00			`@provide-api yes`

			`@using-api yes`
			`@results JSON`
			`@stable yes`
			`@parse url, infobox`
			`"""`

Drop Python 2 (1/n): remove unicode string and url_utils 2020-08-06 15:42:46 +00:00			`from urllib.parse import quote`
[enh] wikipedia infobox creates simple multilingual infobox using wikipedia's api 2016-03-14 06:32:36 +00:00			`from json import loads`
[mod] fetch supported languages for several engines utils/fetch_languages.py gets languages supported by each engine and generates engines_languages.json with each engine's supported language. 2016-11-06 02:51:38 +00:00			`from lxml.html import fromstring`
use Wikipedia's REST v1 API 2020-09-08 05:05:21 +00:00			`from searx.utils import match_language, searx_useragent`
[enh] add raise_for_httperror check HTTP response: * detect some comme CAPTCHA challenge (no solving). In this case the engine is suspended for long a time. * otherwise raise HTTPError as before the check is done in poolrequests.py (was before in search.py). update qwant, wikipedia, wikidata to use raise_for_httperror instead of raise_for_status 2020-12-09 20:23:20 +00:00			`from searx.raise_for_httperror import raise_for_httperror`
[enh] add supported_languages on engines and auto-generate languages.py 2016-08-06 04:34:56 +00:00
[enh] wikipedia infobox creates simple multilingual infobox using wikipedia's api 2016-03-14 06:32:36 +00:00			`# search-url`
Drop Python 2 (1/n): remove unicode string and url_utils 2020-08-06 15:42:46 +00:00			`search_url = 'https://{language}.wikipedia.org/api/rest_v1/page/summary/{title}'`
[mod] fetch supported languages for several engines utils/fetch_languages.py gets languages supported by each engine and generates engines_languages.json with each engine's supported language. 2016-11-06 02:51:38 +00:00			`supported_languages_url = 'https://meta.wikimedia.org/wiki/List_of_Wikipedias'`
[enh] wikipedia infobox creates simple multilingual infobox using wikipedia's api 2016-03-14 06:32:36 +00:00

			`# set language in base_url`
			`def url_lang(lang):`
Revert "remove 'all' option from search languages" This reverts commit 4d1770398a6af8902e75c0bd885781584d39e796. 2019-01-06 14:27:46 +00:00			`lang_pre = lang.split('-')[0]`
fix after rebase 2019-01-07 20:28:58 +00:00			`if lang_pre == 'all' or lang_pre not in supported_languages and lang_pre not in language_aliases:`
Revert "remove 'all' option from search languages" This reverts commit 4d1770398a6af8902e75c0bd885781584d39e796. 2019-01-06 14:27:46 +00:00			`return 'en'`
[fix] check language aliases when setting search language 2018-11-26 05:32:48 +00:00			`return match_language(lang, supported_languages, language_aliases).split('-')[0]`
[enh] wikipedia infobox creates simple multilingual infobox using wikipedia's api 2016-03-14 06:32:36 +00:00

			`# do search-request`
			`def request(query, params):`
			`if query.islower():`
use Wikipedia's REST v1 API 2020-09-08 05:05:21 +00:00			`query = query.title()`
[enh] wikipedia infobox creates simple multilingual infobox using wikipedia's api 2016-03-14 06:32:36 +00:00
use Wikipedia's REST v1 API 2020-09-08 05:05:21 +00:00			`params['url'] = search_url.format(title=quote(query),`
[enh] py3 compatibility 2016-11-30 17:43:03 +00:00			`language=url_lang(params['language']))`
[enh] wikipedia infobox creates simple multilingual infobox using wikipedia's api 2016-03-14 06:32:36 +00:00
use Wikipedia's REST v1 API 2020-09-08 05:05:21 +00:00			`params['headers']['User-Agent'] = searx_useragent()`
[enh] add raise_for_httperror check HTTP response: * detect some comme CAPTCHA challenge (no solving). In this case the engine is suspended for long a time. * otherwise raise HTTPError as before the check is done in poolrequests.py (was before in search.py). update qwant, wikipedia, wikidata to use raise_for_httperror instead of raise_for_status 2020-12-09 20:23:20 +00:00			`params['raise_for_httperror'] = False`
[fix] wikipedia engine: don't raise an error when the query is not found Add a new parameter "raise_for_status", set by default to True. When True, any HTTP status code >= 300 raise an exception ( #2332 ) When False, the engine can manage the HTTP status code by itself. 2020-12-04 19:04:39 +00:00			`params['soft_max_redirects'] = 2`
use Wikipedia's REST v1 API 2020-09-08 05:05:21 +00:00
[enh] wikipedia infobox creates simple multilingual infobox using wikipedia's api 2016-03-14 06:32:36 +00:00			`return params`


			`# get response from search-request`
			`def response(resp):`
[fix] wikipedia engine: don't raise an error when the query is not found Add a new parameter "raise_for_status", set by default to True. When True, any HTTP status code >= 300 raise an exception ( #2332 ) When False, the engine can manage the HTTP status code by itself. 2020-12-04 19:04:39 +00:00			`if resp.status_code == 404:`
[enh] wikipedia infobox creates simple multilingual infobox using wikipedia's api 2016-03-14 06:32:36 +00:00			`return []`
[enh] add raise_for_httperror check HTTP response: * detect some comme CAPTCHA challenge (no solving). In this case the engine is suspended for long a time. * otherwise raise HTTPError as before the check is done in poolrequests.py (was before in search.py). update qwant, wikipedia, wikidata to use raise_for_httperror instead of raise_for_status 2020-12-09 20:23:20 +00:00			`raise_for_httperror(resp)`
[enh] wikipedia infobox creates simple multilingual infobox using wikipedia's api 2016-03-14 06:32:36 +00:00
use Wikipedia's REST v1 API 2020-09-08 05:05:21 +00:00			`results = []`
			`api_result = loads(resp.text)`
[enh] wikipedia infobox creates simple multilingual infobox using wikipedia's api 2016-03-14 06:32:36 +00:00
use Wikipedia's REST v1 API 2020-09-08 05:05:21 +00:00			`# skip disambiguation pages`
[fix] wikipedia: minor fix: return no result instead of crash in some very few cases. In few cases, the JSON results doesn't contains the key 'type'. 2020-12-07 16:42:05 +00:00			`if api_result.get('type') != 'standard':`
use Wikipedia's REST v1 API 2020-09-08 05:05:21 +00:00			`return []`
[enh] wikipedia infobox creates simple multilingual infobox using wikipedia's api 2016-03-14 06:32:36 +00:00
use Wikipedia's REST v1 API 2020-09-08 05:05:21 +00:00			`title = api_result['title']`
			`wikipedia_link = api_result['content_urls']['desktop']['page']`
[enh] wikipedia infobox creates simple multilingual infobox using wikipedia's api 2016-03-14 06:32:36 +00:00
			`results.append({'url': wikipedia_link, 'title': title})`

			`results.append({'infobox': title,`
			`'id': wikipedia_link,`
use Wikipedia's REST v1 API 2020-09-08 05:05:21 +00:00			`'content': api_result.get('extract', ''),`
			`'img_src': api_result.get('thumbnail', {}).get('source'),`
[enh] wikipedia infobox creates simple multilingual infobox using wikipedia's api 2016-03-14 06:32:36 +00:00			`'urls': [{'title': 'Wikipedia', 'url': wikipedia_link}]})`

			`return results`
[mod] fetch supported languages for several engines utils/fetch_languages.py gets languages supported by each engine and generates engines_languages.json with each engine's supported language. 2016-11-06 02:51:38 +00:00

			`# get supported languages from their site`
tests for _fetch_supported_languages in engines and refactor method to make it testable without making requests 2016-12-15 06:34:43 +00:00			`def _fetch_supported_languages(resp):`
[mod] fetch supported languages for several engines utils/fetch_languages.py gets languages supported by each engine and generates engines_languages.json with each engine's supported language. 2016-11-06 02:51:38 +00:00			`supported_languages = {}`
tests for _fetch_supported_languages in engines and refactor method to make it testable without making requests 2016-12-15 06:34:43 +00:00			`dom = fromstring(resp.text)`
[mod] fetch supported languages for several engines utils/fetch_languages.py gets languages supported by each engine and generates engines_languages.json with each engine's supported language. 2016-11-06 02:51:38 +00:00			`tables = dom.xpath('//table[contains(@class,"sortable")]')`
			`for table in tables:`
			`# exclude header row`
			`trs = table.xpath('.//tr')[1:]`
			`for tr in trs:`
			`td = tr.xpath('./td')`
			`code = td[3].xpath('./a')[0].text`
			`name = td[2].xpath('./a')[0].text`
			`english_name = td[1].xpath('./a')[0].text`
			`articles = int(td[4].xpath('./a/b')[0].text.replace(',', ''))`
minor fixes in utils/fetch_languages.py 2016-12-17 04:14:14 +00:00			`# exclude languages with too few articles`
change language list to only include languages with a minimum of engines that support them. users can still query lesser supported through the :lang_code bang. 2016-12-29 05:24:56 +00:00			`if articles >= 100:`
[mod] fetch supported languages for several engines utils/fetch_languages.py gets languages supported by each engine and generates engines_languages.json with each engine's supported language. 2016-11-06 02:51:38 +00:00			`supported_languages[code] = {"name": name, "english_name": english_name, "articles": articles}`

			`return supported_languages`