]> git.openstreetmap.org Git - nominatim.git/blob - nominatim/tokenizer/sanitizers/tag_analyzer_by_language.py
work around new pylint warnings
[nominatim.git] / nominatim / tokenizer / sanitizers / tag_analyzer_by_language.py
1 # SPDX-License-Identifier: GPL-2.0-only
2 #
3 # This file is part of Nominatim. (https://nominatim.org)
4 #
5 # Copyright (C) 2022 by the Nominatim developer community.
6 # For a full list of authors see the git log.
7 """
8 This sanitizer sets the `analyzer` property depending on the
9 language of the tag. The language is taken from the suffix of the name.
10 If a name already has an analyzer tagged, then this is kept.
11
12 Arguments:
13
14     filter-kind: Restrict the names the sanitizer should be applied to
15                  the given tags. The parameter expects a list of
16                  regular expressions which are matched against 'kind'.
17                  Note that a match against the full string is expected.
18     whitelist: Restrict the set of languages that should be tagged.
19                Expects a list of acceptable suffixes. When unset,
20                all 2- and 3-letter lower-case codes are accepted.
21     use-defaults:  Configure what happens when the name has no suffix.
22                    When set to 'all', a variant is created for
23                    each of the default languages in the country
24                    the feature is in. When set to 'mono', a variant is
25                    only created, when exactly one language is spoken
26                    in the country. The default is to do nothing with
27                    the default languages of a country.
28     mode: Define how the variants are created and may be 'replace' or
29           'append'. When set to 'append' the original name (without
30           any analyzer tagged) is retained. (default: replace)
31
32 """
33 from typing import Callable, Dict, Optional, List
34
35 from nominatim.data import country_info
36 from nominatim.tokenizer.sanitizers.base import ProcessInfo
37 from nominatim.tokenizer.sanitizers.config import SanitizerConfig
38
39 class _AnalyzerByLanguage:
40     """ Processor for tagging the language of names in a place.
41     """
42
43     def __init__(self, config: SanitizerConfig) -> None:
44         self.filter_kind = config.get_filter('filter-kind')
45         self.replace = config.get('mode', 'replace') != 'append'
46         self.whitelist = config.get('whitelist')
47
48         self._compute_default_languages(config.get('use-defaults', 'no'))
49
50
51     def _compute_default_languages(self, use_defaults: str) -> None:
52         self.deflangs: Dict[Optional[str], List[str]] = {}
53
54         if use_defaults in ('mono', 'all'):
55             for ccode, clangs in country_info.iterate('languages'):
56                 if len(clangs) == 1 or use_defaults == 'all':
57                     if self.whitelist:
58                         self.deflangs[ccode] = [l for l in clangs if l in self.whitelist]
59                     else:
60                         self.deflangs[ccode] = clangs
61
62
63     def _suffix_matches(self, suffix: str) -> bool:
64         if self.whitelist is None:
65             return len(suffix) in (2, 3) and suffix.islower()
66
67         return suffix in self.whitelist
68
69
70     def __call__(self, obj: ProcessInfo) -> None:
71         if not obj.names:
72             return
73
74         more_names = []
75
76         for name in (n for n in obj.names
77                      if not n.has_attr('analyzer') and self.filter_kind(n.kind)):
78             if name.suffix:
79                 langs = [name.suffix] if self._suffix_matches(name.suffix) else None
80             else:
81                 langs = self.deflangs.get(obj.place.country_code)
82
83
84             if langs:
85                 if self.replace:
86                     name.set_attr('analyzer', langs[0])
87                 else:
88                     more_names.append(name.clone(attr={'analyzer': langs[0]}))
89
90                 more_names.extend(name.clone(attr={'analyzer': l}) for l in langs[1:])
91
92         obj.names.extend(more_names)
93
94
95 def create(config: SanitizerConfig) -> Callable[[ProcessInfo], None]:
96     """ Create a function that sets the analyzer property depending on the
97         language of the tag.
98     """
99     return _AnalyzerByLanguage(config)