addok et demo.addok.xyz : géocodage avec données OSM

Previous Topic Next Topic
 
classic Classic list List threaded Threaded
13 messages Options
Reply | Threaded
Open this post in threaded view
|

addok et demo.addok.xyz : géocodage avec données OSM

cquest
Le géocodeur addok, développé à l’origine et toujours utilisé par Etalab
pour adresse.data.gouv.fr <http://adresse.data.gouv.fr> est en train
d’évoluer depuis que je me suis (re)plongé dans son code.

Une version 1.1, en préparation depuis longtemps, pointe petit à petit
le bout de son nez.

Je le teste pour des usages plus larges que les seules adresses, pour
étendre son fonctionnement à la recherche de « localisants ».
Les localisants peuvent bien sûr être des adresses, mais aussi des
points d’intérêts (POI), des intersections, des lieux-dits, etc.

J’ai une instance déployée chez moi, utilisant la dernière version en
développement et qui permet de tester ce type d’usage avec une interface
minimale.

https://demo.addok.xyz/ où vous pouvez tester l’auto-complétion avec
préférence géographique centrée sur la carte.

Elle contient pour l’instant :

  * 22 627 589 d’adresses (au numéro)
  * 2 421 738 rues
  * 2 594 359 lieux-dits
  * 3 138 661 POI
  * 2 677 334 intersections de rues et/ou routes (c'est tout frais, pas
    encore bien sec)

Total : 33.46 million de localisants ayant comme source BANO pour les
trois premiers items, et OSM les deux derniers.

En plus des adresses, on peut donc faire des recherches du type :

  * musée du louvre
  * A5 D40
  * A86 creteil
  * avenue montaigne champs élysées
    etc.

L’API n’offre aucune garantie de stabilité, c’est de la démo/dev, ne
branchez donc aucune appli dessus sans me demander.
Vos retours sont les bienvenus en particulier sur la pertinence des
résultats et sur les performances (mes deux priorités).
Les perfs peuvent varier, la machine sur laquelle tourne cette instance
fait bien d’autres choses en même temps (wms.openstreetmap.fr tourne
dessus !) et a quand même 10 ans de bons et loyaux services !
Le temps typique de recherche est de l’ordre de 20ms (tout est en RAM,
ça aide).

Le projet est sur github et vous pouvez si besoin y créer des issues
pour permettre leur suivi : https://github.com/addok/addok/issues

--
Christian Quest - OpenStreetMap France


_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Christian Quest - cquest@openstreetmap.fr
Reply | Threaded
Open this post in threaded view
|

Re: addok et demo.addok.xyz : géocodage avec données OSM

France mailing list
Hello,

Le 22/11/2020 à 20:02, Christian Quest a écrit :
> https://demo.addok.xyz/ où vous pouvez tester l’auto-complétion avec
> préférence géographique centrée sur la carte.

Wouah !!

Ça dépote! Et tolérant o fotes d'ortogafe. J'adore :-)

> Le projet est sur github et vous pouvez si besoin y créer des issues
> pour permettre leur suivi : https://github.com/addok/addok/issues

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: addok et demo.addok.xyz : géocodage avec données OSM

leni-2

Le 23/11/2020 à 09:55, Cyrille37 OSM via Talk-fr a écrit :
> Hello,
>
> Le 22/11/2020 à 20:02, Christian Quest a écrit :
>> https://demo.addok.xyz/ où vous pouvez tester l’auto-complétion avec
>> préférence géographique centrée sur la carte.
>
> Wouah !!
>
> Ça dépote! Et tolérant o fotes d'ortogafe. J'adore :-)
+1, sans les accents, sans apostrophes, sans les articles, centré à
l'autre bout de la France et il trouve instantanément : j'adopte

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: addok et demo.addok.xyz : géocodage avec données OSM

Jean-Marc Liotier
On 11/23/20 7:17 PM, leni wrote:

> Le 23/11/2020 à 09:55, Cyrille37 OSM via Talk-fr a écrit :
>> Le 22/11/2020 à 20:02, Christian Quest a écrit :
>>> https://demo.addok.xyz/ où vous pouvez tester l’auto-complétion avec
>>> préférence géographique centrée sur la carte.
>>
>> Wouah !!
>>
>> Ça dépote! Et tolérant o fotes d'ortogafe. J'adore :-)
> +1, sans les accents, sans apostrophes, sans les articles, centré à
> l'autre bout de la France et il trouve instantanément : j'adopte

Impressionnant. C'est gourmand ?



_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: addok et demo.addok.xyz : géocodage avec données OSM

cquest
Le 23/11/2020 à 19:55, Jean-Marc Liotier a écrit :

> On 11/23/20 7:17 PM, leni wrote:
>> Le 23/11/2020 à 09:55, Cyrille37 OSM via Talk-fr a écrit :
>>> Le 22/11/2020 à 20:02, Christian Quest a écrit :
>>>> https://demo.addok.xyz/ où vous pouvez tester l’auto-complétion
>>>> avec préférence géographique centrée sur la carte.
>>>
>>> Wouah !!
>>>
>>> Ça dépote! Et tolérant o fotes d'ortogafe. J'adore :-)
>> +1, sans les accents, sans apostrophes, sans les articles, centré à
>> l'autre bout de la France et il trouve instantanément : j'adopte
>
> Impressionnant. C'est gourmand ?
>

L'index redis occupe dans les 16Go de RAM, la base sqlite 2Go, elle
aussi en RAM pour un max de perfs.

--
Christian Quest - OpenStreetMap France


_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Christian Quest - cquest@openstreetmap.fr
Reply | Threaded
Open this post in threaded view
|

Re: addok et demo.addok.xyz : géocodage avec données OSM

Jean-Marc Liotier
On 11/23/20 10:32 PM, Christian Quest wrote:
> L'index redis occupe dans les 16Go de RAM, la base sqlite 2Go, elle
> aussi en RAM pour un max de perfs.
Pour la France seulement... Ca apporte d'un coup tous ce dont l'absence
frustre dans Nominatim - mais c'est un sérieux investissement en
matériel pour une emprise mondiale... Même problème que la mise à
disposition de tuiles: vitrine indispensable mais qui risque d'être
considéré comme un service public.

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: addok et demo.addok.xyz : géocodage avec données OSM

Frédéric Rodrigo-2
Ce n'est pas aussi facile que ça pour faire une emprise mondiale. Il est nécessaire d'écrire des adaptateurs pour chaque langue ou pays pour traiter les particularités.

Le mar. 24 nov. 2020 à 10:41, Jean-Marc Liotier <[hidden email]> a écrit :
On 11/23/20 10:32 PM, Christian Quest wrote:
> L'index redis occupe dans les 16Go de RAM, la base sqlite 2Go, elle
> aussi en RAM pour un max de perfs.
Pour la France seulement... Ca apporte d'un coup tous ce dont l'absence
frustre dans Nominatim - mais c'est un sérieux investissement en
matériel pour une emprise mondiale... Même problème que la mise à
disposition de tuiles: vitrine indispensable mais qui risque d'être
considéré comme un service public.

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: addok et demo.addok.xyz : géocodage avec données OSM

cquest

Oui, ce n'est pas le but d'addok... qui trop embrasse mal étreint ;)

J'envisage par contre de rajouter des données hors de France, typiquement les noms des villes dans le monde entier pour pouvoir chercher "Le caire" ou "Tokyo".

Pour le côté service public, je pense que DEMO.addok.xyz pose bien les choses ;)


Le 24/11/2020 à 18:22, Frédéric Rodrigo a écrit :
Ce n'est pas aussi facile que ça pour faire une emprise mondiale. Il est nécessaire d'écrire des adaptateurs pour chaque langue ou pays pour traiter les particularités.

Le mar. 24 nov. 2020 à 10:41, Jean-Marc Liotier <[hidden email]> a écrit :
On 11/23/20 10:32 PM, Christian Quest wrote:
> L'index redis occupe dans les 16Go de RAM, la base sqlite 2Go, elle
> aussi en RAM pour un max de perfs.
Pour la France seulement... Ca apporte d'un coup tous ce dont l'absence
frustre dans Nominatim - mais c'est un sérieux investissement en
matériel pour une emprise mondiale... Même problème que la mise à
disposition de tuiles: vitrine indispensable mais qui risque d'être
considéré comme un service public.
-- 
Christian Quest - OpenStreetMap France

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Christian Quest - cquest@openstreetmap.fr
Reply | Threaded
Open this post in threaded view
|

Re: addok et demo.addok.xyz : géocodage avec données OSM

Jean-Marc Liotier
In reply to this post by Frédéric Rodrigo-2
On 11/24/20 6:22 PM, Frédéric Rodrigo wrote:
Ce n'est pas aussi facile que ça pour faire une emprise mondiale. Il est nécessaire d'écrire des adaptateurs pour chaque langue ou pays pour traiter les particularités.

Je découvre donc:

- La phonemicization: https://github.com/addok/addok-fr/blob/master/addok_fr/utils.py

- Les particularités Françaises: https://github.com/addok/addok-france/blob/master/addok_france/utils.py

On comprend vite qu'il sera compliqué d'accepter une recherche sans connaître dans quel zone administrative et linguistique elle s'inscrit...



_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: addok et demo.addok.xyz : géocodage avec données OSM

France mailing list
In reply to this post by cquest

Bonjour,

Y a t'il une chance que adresse.data.gouv.fr intègre cette nouvelle mouture v1.1  ?

C/.

Le 24/11/2020 à 19:39, Christian Quest a écrit :

Oui, ce n'est pas le but d'addok... qui trop embrasse mal étreint ;)

J'envisage par contre de rajouter des données hors de France, typiquement les noms des villes dans le monde entier pour pouvoir chercher "Le caire" ou "Tokyo".

Pour le côté service public, je pense que DEMO.addok.xyz pose bien les choses ;)


Le 24/11/2020 à 18:22, Frédéric Rodrigo a écrit :
Ce n'est pas aussi facile que ça pour faire une emprise mondiale. Il est nécessaire d'écrire des adaptateurs pour chaque langue ou pays pour traiter les particularités.

Le mar. 24 nov. 2020 à 10:41, Jean-Marc Liotier <[hidden email]> a écrit :
On 11/23/20 10:32 PM, Christian Quest wrote:
> L'index redis occupe dans les 16Go de RAM, la base sqlite 2Go, elle
> aussi en RAM pour un max de perfs.
Pour la France seulement... Ca apporte d'un coup tous ce dont l'absence
frustre dans Nominatim - mais c'est un sérieux investissement en
matériel pour une emprise mondiale... Même problème que la mise à
disposition de tuiles: vitrine indispensable mais qui risque d'être
considéré comme un service public.
-- 
Christian Quest - OpenStreetMap France

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: addok et demo.addok.xyz : géocodage avec données OSM

cquest
On en parle... pas mal de tests à faire avant ça et puis un petit sujet
financement.


Le 25/11/2020 à 07:56, Cyrille37 OSM via Talk-fr a écrit :

>
> Bonjour,
>
> Y a t'il une chance que adresse.data.gouv.fr intègre cette nouvelle
> mouture v1.1  ?
>
> C/.
>
> Le 24/11/2020 à 19:39, Christian Quest a écrit :
>>
>> Oui, ce n'est pas le but d'addok... qui trop embrasse mal étreint ;)
>>
>> J'envisage par contre de rajouter des données hors de France,
>> typiquement les noms des villes dans le monde entier pour pouvoir
>> chercher "Le caire" ou "Tokyo".
>>
>> Pour le côté service public, je pense que DEMO.addok.xyz pose bien
>> les choses ;)
>>
>>
--
Christian Quest - OpenStreetMap France


_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Christian Quest - cquest@openstreetmap.fr
Reply | Threaded
Open this post in threaded view
|

Re: addok et demo.addok.xyz : géocodage avec données OSM

France mailing list
In reply to this post by Jean-Marc Liotier
Le 24/11/2020 à 20:37, Jean-Marc Liotier a écrit :
On 11/24/20 6:22 PM, Frédéric Rodrigo wrote:
Ce n'est pas aussi facile que ça pour faire une emprise mondiale. Il est nécessaire d'écrire des adaptateurs pour chaque langue ou pays pour traiter les particularités.

Je découvre donc:

- La phonemicization: https://github.com/addok/addok-fr/blob/master/addok_fr/utils.py

- Les particularités Françaises: https://github.com/addok/addok-france/blob/master/addok_france/utils.py

On comprend vite qu'il sera compliqué d'accepter une recherche sans connaître dans quel zone administrative et linguistique elle s'inscrit...

La « phonemicization » ressemble à une sorte de phonétisation simplifiée, non ?

Pourquoi n'avoir pas pris de bibliothèques de phonétisation qui sont beaucoup plus complètes et plus adaptables à la zone de recherche, comme celles des moteurs de recherche ?
Trop lourdes ?

--
Rpnpif

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: addok et demo.addok.xyz : géocodage avec données OSM

cquest
Le 25/11/2020 à 10:32, Rpnpif via Talk-fr a écrit :

> Le 24/11/2020 à 20:37, Jean-Marc Liotier a écrit :
>> On 11/24/20 6:22 PM, Frédéric Rodrigo wrote:
>>> Ce n'est pas aussi facile que ça pour faire une emprise mondiale. Il
>>> est nécessaire d'écrire des adaptateurs pour chaque langue ou pays
>>> pour traiter les particularités.
>>
>> Je découvre donc:
>>
>> - La phonemicization:
>> https://github.com/addok/addok-fr/blob/master/addok_fr/utils.py
>>
>> - Les particularités Françaises:
>> https://github.com/addok/addok-france/blob/master/addok_france/utils.py
>>
>> On comprend vite qu'il sera compliqué d'accepter une recherche sans
>> connaître dans quel zone administrative et linguistique elle s'inscrit...
>>
> La « phonemicization » ressemble à une sorte de phonétisation
> simplifiée, non ?
>
> Pourquoi n'avoir pas pris de bibliothèques de phonétisation qui sont
> beaucoup plus complètes et plus adaptables à la zone de recherche,
> comme celles des moteurs de recherche ?
> Trop lourdes ?
>

Oui, librairie souvent lourdes et souvent très anglophones. Le but n'est
pas non plus d'obtenir une traduction phonétique, mais une
simplification pour ajouter du flou à la recherche.

On floute à l'aide de quelques regexp très rapides, on cherche dans
l'index, puis on trie en comparant les libellés non floutés.


--
Christian Quest - OpenStreetMap France


_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Christian Quest - cquest@openstreetmap.fr