Vérification des tags wikipedia et nettoyage ?

classic Classic list List threaded Threaded
30 messages Options
12
Reply | Threaded
Open this post in threaded view
|

Vérification des tags wikipedia et nettoyage ?

pyrog
Bonsoir,

En regardant de plus près les clés wikipedia et leurs valeurs avec taginfo, je constate pas mal de bazar.

Lors de la saisie, que vérifient (ou pas) les principaux éditeurs ?
(J’ai fait un tableau comparatif. Il sera envoyé plus tard)

Pour les données existantes,

Comment repérer les valeurs et/ou les clés erronées ?
  • taginfo
    • difficile car pas de recherche par expressions rationnelles (regex)
    • export des valeurs + script utilisant des regex
  • requêtes overpass
    • expressions rationnelles limitées (pas de PCRE)
  • outils de contrôle qualité (Osmose…)

Faut-il les nettoyer ?
  • gros travail…
  • la clé wikidata permet de gérer les libellés en plusieurs langues, les synonymes, les relations entre objets, les identifiants externes…

Si oui, comment ?
  • contrôles et corrections automatiques dans l’éditeur

Yves

PS: Quelques exemples :

wikipedia=fr:Phare
wikipedia_1=es:Faro
wikipedia_2=de:Leuchtturm
wikipedia_3=fa:فانوس دریایی

Il y a en avait beaucoup, c’est presque tout nettoyé. Est-ce que ça reviendra avec l’arrivée de contributeurs débutants ?

Préfixe de langue manquant
  • wikipedia=Phare
  • brand:wikipedia=McDonald's

Préfixe de langue incomplet (pb de copier/coller ?)
  • wikipedia=n:Connections Museum
  • operator:wikipedia=e:BDZ Deutsche Zoll- und Finanzgewerkschaft
  • brand:wikipedia=u:Россельхозбанк

Préfixes de langues correctes (norme ISO) mais sans site linguistique wikipédia correspondant

url complète et ses variantes

url vers un site n’ayant rien à voir avec wikipedia

url avec un préfixe de langue rajouté !

mauvais séparateur . ; …
  • wikipedia=fr.Château_Mathelin

Photos wikimedia commons avec préfixe de langue
  • wikipedia=it:File:Alfred Nobel - Villa in Sanremo.jpg
  • wikipedia=fr:Canal Saint-Félix#/media/File:W1785-Nantes CanalStFelix Ecluse 85749.JPG
  • wikipedia=de:Datei:Prichsenstadt BW 6.JPG
  • wikipedia=fr:Fichier:Bouvines Monument au morts.jpg
Valeurs multiples :
  • wikipedia=en:Izadshahr, fa:ایزدشهر

Des clés incorrectes :

Suffixes de langue inappropriés :
  • brand:wikipedia_1
  • brand:wikipedia:ar
  • subject:wikipedia:de
  • subject:wikipedia:en
  • artist:wikipedia:et

Tags d'éléments « supprimés »
  • abandoned:brand:wikipedia
  • abandoned:wikipedia
  • demolished:brand:wikipedia
  • demolished:wikipedia
  • former_operator:wikipedia
  • former:operator:wikipedia
  • not:brand:wikipedia
  • old_brand:wikipedia
  • old_name:wikipedia
  • old_wikipedia
  • old_wikipedia:zh
  • old:wikipedia
  • razed:wikipedia
  • was:brand:wikipedia
  • was:operator:wikipedia
  • was:wikipedia

Faut-il les supprimer ?



_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: Vérification des tags wikipedia et nettoyage ?

pyrog
Tableau des contrôles effectués par les éditeurs (non exhaustif)

Il y a des applications sur smartphone à rajouter éventuellement, les outils de contrôle qualité : osmose…

Les contrôles effectués sont probablement à compléter…

_
Yves


Contrôle
Exemple
iD
JOSM



validator
greffon
Wikipedia
wikipedia
vérification du préfixe « langue »
dummy:Paris
non
incomplet
liste statique (2)
oui
utilise l’API de mediawiki (3)
vérification absence du préfixe
Paris
non
oui
oui
remplacement URL complète
non
non
oui
remplacement caractères encodés
P%C3%B5rmuj%C3%A4rv
non
oui
non
remplacement caractères soulignés
nl:Gymnasium_Haganum
non
oui
oui (1)
vérification des redirections
fr:Manjaque redirect
non
non
oui
vérification wikipedia sans correspondance wikidata

non
non
oui
vérification article inexistant

non
non
non
vérification URL non wiki

oui (4)
oui (5)

vérification valeurs multiples
en:Izadshahr, fa:ایزدشهر
non (6)
wikipedia:*
vérification du suffixe « langue » dans la clé
wikipedia:dummy
non
non
non
vérification des valeurs
(comme pour la clé wikipedia)

non
non
non

vérification caractères encodés
P%C3%B5rmuj%C3%A4rv
non
oui
non

remplacement caractères soulignés
Gymnasium_Haganum
non
non
non
*:wikipedia
vérification du préfixe dans la clé

non
non
non
vérification des valeurs
(comme pour la clé wikipedia)

non
non
non
wikidata
vérification élément inexistant

non

oui

vérification valeurs multiples
Q22949674;Q22949654

oui
oui (7)
wikidata
Affichage articles sur la carte

non

oui
wikipedia
wikidata
saisie interactive

oui

non
wikipedia
Notes





1
messages peu clairs :
[Wiki] Wikidata item and Wikipedia article do not match! - Wikidata item Q367203 is not associated with Wikipedia article nl:Gymnasium_Haganum (has no Q-ID) (1) 
[Wiki] Wikipedia article is a redirect - Wikipedia article 'Gymnasium_Haganum' redirects to 'Gymnasium Haganum' (1) 
2
3
4
message peu clair :
attributs dépréciés - Le format du tag wikipedia est obsolète, utilisez 'wikipedia'='langue:page de titre' à  la place (1) 
5
message clair ?
[Wiki] Unknown Wikipedia language prefix 'http'! (1) 
6
valeurs multiples non gérées. La page wikipedia inique que l’article n’existe pas.
7
valeurs multiples non gérées pour les vérifications (détecte une valeur erronée). Mais le nom de l’élément Q123 est affiché automatiquement

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: Vérification des tags wikipedia et nettoyage ?

pyrog
Redirections gérées par les principales applications.

Contrôle
valeur
url
iD
tag2link
Openstreetmap
Overpass
wikipedia






avec préfixe de langue
fr:Œting
oui
oui
oui
oui
simple:Hatshepsut
oui
oui
oui
oui
nds:Seppenser Möhl
oui
oui
oui
oui
es:Óscar Quiñones
oui
oui
oui
oui
be-tarask:Новы Двор
⚠️ oui
oui
oui
non (2)
be-x-old:Серкавіцкі сельсавет
oui
oui
oui
fiu-vro:Põrmujärv
oui
oui
oui
sans préfixe
Paris
 ⚠️ pointe sur le site anglais
non
(comportement adapté
😀)
龍潭大池
Париж
URL

⚠️ plante
oui
oui


oui
oui
wikipedia:*






wikipedia:fr
Île des Sœurs
⚠️ non
oui
oui
oui
wikipedia:es
Alcocéber
oui
oui
oui
wikipedia:gag
Komrat
oui
oui
oui
wikipedia:be-tarask
Межава (Аршанскі раён)
non (1)
oui
oui
wikipedia:zh-yue
河北沿海高速公路
oui
oui
wikidata






Liens multiples
Q22949674;Q22949654


⚠️ oui (3)
non
non
Notes






1

\p{Lower} dans l’expression rationnelle n’accepte pas le tiret ? Remplacer par [a-z-] ou [a-zA-Z-]
2

[a-zA-Z] dans l’expression rationnelle n’accepte pas le tiret. Remplacer par [a-zA-Z-]
3
Produit un seul lien avec les 2 valeurs. Le site wikidata indique que cette entité n’existe pas.

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: Vérification des tags wikipedia et nettoyage ?

verdy_p

Le mar. 26 nov. 2019 à 23:28, Yves P. <[hidden email]> a écrit :

>Notes
>
>1 https://trac.openstreetmap.org/browser/subversion/applications/editors/josm/plugins/tag2link/resources/tag2link_sources.xml#L59
>\p{Lower} dans l’expression rationnelle n’accepte pas le tiret ? Remplacer par [a-z-] ou [a-zA-Z-]
>
>2 https://github.com/tyrasd/overpass-turbo/blob/master/js/overpass.js#L719
>[a-zA-Z] dans l’expression rationnelle n’accepte pas le tiret. Remplacer par [a-zA-Z-]

Concernant les préfixes de langue il n'y a pas que les tirets, mais si on les accepte il faudrait aussi valider la syntaxe. Visiblement ne sont acceptés que les codes langue en minuscules (même accentuées ou non latines, ce qui est incorrect). Mais aussi sans limite de longueur. De plus après les tirets, on peut avoir un code de variante de langue (obsolète, de 3 lettres minuscules), un code d'écriture (1 majuscule et 3 minuscules), un code région (2 lettres pour un code ISO 3166-1 ou 3 chiffres), et de code de variante (en minuscules ou chiffres ASCII). Et tous les "subtags" sont limités à 8 caractères et ont au moins 2 caractères (entre les tirets); les sub
tags à 1 lettre sont spéciaux et ne devraient pas être utilisés pour identifier les langues (les anciens codes IANA commençant par "i-" sont obsolètes, et les codes langues "x-*" sont bannis hors des "subtags" de variantes régionales (préférables aux codes de régions ISO 3166-1 qui ne sont pas assez discernants), mais des propriétés de localisation.

Bref une expression régulière correcte serait

[a-z][a-z][a-z]?(-[a-z][a-z][a-z])?(-[A-Z][a-z][a-z][a-z])?(-[A-Z][A-Z]|[0-9][0-9][0-9])?(-x)?(-[a-z]{2,8}):

Si on est strict, mais on peut admettre alors aussi ces préfixes en capitalisation différente (quitte à les normaliser ensuite automatiquement, y compris en remplaçant les séparateurs "_" par des "-"), conformément à ce que prévoit le standard BCP47. Ensuite chaque "subtag" peut éventuellement être validé si on a une copie locale de la base IANA pour BCP47 (sauf cas spécial des variantes "-x-[a-z0-9]{2,8}" qui elles sont validées par un dictionnaire de variantes privées admises dans OSM (mais sont sujette à remplacement automatisable ultérieurement s'il y a un code standard tel que "be-x-tarask" reconverti en "be-tarask", avant la suppression de ces admissions du dictionnaire quand la base OSM a été nettoyée et les utilisateurs avertis)

Ceci dit la validation peut admettre des codes devenus depuis ambigus et dépréciés mais qu'on ne peut pas remplacer automatiquement: c'est le cas quand ISO a scindé un code langue en deux.

Il reste enfin des exceptions venant de Wikimedia (telles que "roa-tara" qui devraient être plutôt une variante du sicilien "scn-tara" ou une variante non standard de l'italien "it-x-tara")

D'autres substitutions automatiques sont possibles (exemple changer "fre" ou "fra" en "fr", si on préfère les codes courts ISO 639-1 aux codes ISO 639-2/3).

Dans l'état, les validateurs sont peu à jour et sont encore basés sur la vieille version de BCP 47 non basée sur RFC 4646 mais sur une version plus ancienne. Il serait temsp de convertir tou ça car les RFC 47 a quand mêem été mise à jour depuis plusieurs années, avant même la sortie de l'ISO 639-3 et les révisions de l'ISO 15924 pour les codes d'écritures et la refonte du registre IANA avec des règles bien plus précises et une politique de stabilité et une procédure établie pour les ajouts/révisions/dépréciations, ainsi que la révision des codes à remplacer automatiquement !

Quand à la normalisation des codes (la capitalisation) je n'ai pas d'avis tranché, on peut très bien admettre dans OSM uniquement les formes minuscules seulement, sans capitaliser la première lettre des codes d'écriture ou les codes région ISO 3166-1 à deux lettres. En revanche on doit éviter les formes ISO 3166 ou ISO15924 en chiffres, on peut les subtituer automatiquement (et leur liste n'est pas longue, il ne doit rester que quelques codes à 3 chiffres pour les groupes de pays par masse continentale). Mais ce la ne devrait pas bloquer la validation des données si un éditeur omet cette substitution automatique. car un bot peut facilement faire la correction plus tard.

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: Vérification des tags wikipedia et nettoyage ?

pyrog

Concernant les préfixes de langue il n'y a pas que les tirets, mais si on les accepte il faudrait aussi valider la syntaxe. Visiblement ne sont acceptés que les codes langue en minuscules
En fait c’est plus simple, on n’accepte que les codes de langues des sites wikipedia existants.
cf. API wikimedia ou requêtes SPARQL : https://w.wiki/Cqb

Minuscules ou majuscules, ce sont des noms de domaines, donc (pour le moment) ça ne change rien.

Yves


_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: Vérification des tags wikipedia et nettoyage ?

verdy_p
Non, OSM a des données aussi pour bien autre chose que les liens Wikimedia, notamment pour les libellés (name:* et variantes) qui sont en de bien plus nombreuses langues (et écritures).

Pour les liens wikipedia, il n'y a pas besoin de la conformité BCP 47 car oui dans ce cas ce ne sont que des étiquettes de noms de domaines.
Cependant dans les deux cas la casse n'est pas imposée, il y a juste une casse recommandée et qu'on peut normaliser en minuscules (même si pour BCP47 il est fait référence à des casses alternatives concernant les codes ISO 3166-1 (à 2 lettres uniquement, éventuellement augmenté par des codes de subdivisions de l'ISO 3166-2, avec un séparateur facultatif, donc lui aussi ce second sous-code devrait être en capitales, mais ce cas ne concerne pas les codes de langues régionalisés qui n'utilisent pas du tout les codes ISO 3166-2) normalement en capitales uniquement, et les codes ISO 15924 avec l'initiale seule en capitale.

Pour OSM, tout ce qui concerne la codification des langues de base devrait être en minuscules (mais les extensions de code peuvent varier en casse, et on ne doit pas supprimer les séparateurs, et OSM devrait normaliser partout les capitales requises pour les codes régions et l'initiale seulement des codes d'écriture, sinon tout le reste en minuscules uniquement: on a des tags dont les noms qui ont des extensions, préfixées ou suffixées avec ":" qui dinstingue soit par pays, soit par langue; et aussi des extensions ":" d'usage privé qui devraient être en minuscules mais d'autres en capitales et on a le risque de collision avec des codes langue ou codes géographiques, et c'est un peu le "bordel" dans ces extensions qui devraient éviter tout risque de collision avec les codes langues ou géographiques, en normalisant ces dernières de la façon recommandée par BCP47, afin que les autres extension OSM n'utilisent aucune de ces formes; cependant il n'y a pas de collision si les extensions OSM ne sont PAS 2 ou 3 lettres ou 3 chiffres éventuellement suivis d'un trait d'union et là on a un peu toutes les formes; mais il y a encore certaines extensions privées d'OSM qui entrent en collision avec les codes langues et géographiques avec leur capitalisation normalisée : OSM initialement a émis des recommandations n'utilisant que les minuscules mais ce n'est pas tenable et les tags privées d'OSM ont une casse significative par défaut: on doit donc normaliser la casse de ces codes même si ni BCP 47 ni les codes ISO, ni les noms de domaines Wikimedia ne l'imposent, et ça traîne depuis des années et continue à compliquer les requêtes et à poser des problèmes d'évolution pour plus de langues ou de régions).


Le mer. 27 nov. 2019 à 00:36, Yves P. <[hidden email]> a écrit :

Concernant les préfixes de langue il n'y a pas que les tirets, mais si on les accepte il faudrait aussi valider la syntaxe. Visiblement ne sont acceptés que les codes langue en minuscules
En fait c’est plus simple, on n’accepte que les codes de langues des sites wikipedia existants.
cf. API wikimedia ou requêtes SPARQL : https://w.wiki/Cqb

Minuscules ou majuscules, ce sont des noms de domaines, donc (pour le moment) ça ne change rien.

Yves


_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: Vérification des tags wikipedia et nettoyage ?

Bibi
In reply to this post by pyrog

Philippe, la réponse d'Yves est bonne car il ne parlait "que" des tags wikipedia.

Tu veux généraliser, ce n'est pas une mauvaise idée, tu proposes une base réutilisable par les différents éditeurs ?


Le 26/11/2019 à 22:53, Yves P. - [hidden email] a écrit :
Faut-il les nettoyer ?
  • gros travail…
  • la clé wikidata permet de gérer les libellés en plusieurs langues, les synonymes, les relations entre objets, les identifiants externes…
Oui si possible
Il y a en avait beaucoup, c’est presque tout nettoyé. Est-ce que ça reviendra avec l’arrivée de contributeurs débutants ?

Oui

Tags d'éléments « supprimés »
  • abandoned:brand:wikipedia
  • abandoned:wikipedia
  • demolished:brand:wikipedia
  • demolished:wikipedia
  • former_operator:wikipedia
  • former:operator:wikipedia
  • not:brand:wikipedia
  • old_brand:wikipedia
  • old_name:wikipedia
  • old_wikipedia
  • old_wikipedia:zh
  • old:wikipedia
  • razed:wikipedia
  • was:brand:wikipedia
  • was:operator:wikipedia
  • was:wikipedia

Faut-il les supprimer ?

Ça dépend des cas. Globalement ça ne mange pas de pain et si des gens ont jugé utile de les ajouter.

  • former_operator:wikipedia
  • former:operator:wikipedia

Je ne vois pas trop l'utilité et il faudrait a minima passer à un préfixe de cycle de vie (was: ?)

  • old_name:wikipedia
  • old_wikipedia
  • old_wikipedia:zh
  • old:wikipedia

J'ai du mal à comprendre. Si on a un ancien nom, dans l'article Wikipédia actuel il y sera fait référence et la page Wikipédia correspondante sera citée.

not:brand:wikipedia

Ça c'est utile pour éviter que des cartographes en fauteuil ne disent que le restaurant McDonald est une franchise McDonald alors qu'il a juste le malheur de partager son nom.

Virer/corriger les valeurs incorrectes me semble plus utile. Par exemple en transformant ta revue des manques de vérification en tickets JOSM/iD...

Jean-Yvon


_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: Vérification des tags wikipedia et nettoyage ?

marc marc
In reply to this post by pyrog
Bonjour,

Le 26.11.19 à 22:53, Yves P. a écrit :
> Comment repérer les valeurs et/ou les clés erronées ?

cela dépend de ce que tu veux en faire.
pour une édition de masse, le mieux est probablement de télécharger un
extrait France, de filtrer pour ne garder que les objets avec une clef
wikipedia et de tavailler dessus

pour améliorer la qualité des futures données, il est utile
de faire les tickets/PR dans les éditeurs et osmose

> Faut-il les nettoyer ?

si cela te motive de proposer, n'hésites pas

> Si oui, comment ?
>   * contrôles et corrections automatiques dans l’éditeur

à mon avis les 3
- un contrôle à la source est toujours mieux que de corriger après.
- vu l'ampleur que tu décris, une/des éditions en France
semble le plus approprié
- après, proposer le correctif mondial et/ou le correctif dans les éditeurs

> PS: Quelques exemples :

pour éviter l'indigestion, je pense que tu devrais cibler
un cas à la fois : par exemple les valeurs génériques
ou les typo qu'il est possible parfois de corriger
automatiquement à partir du wikidata
ou n'importe quel autre cas qui te branche pour commencer :)

> wikipedia=fr:Phare

introuvable même en utilisant overpass pour remonter au 1er janvier
tu as un exemple ?

a noter un cas fréquent en France : la mise du tag sur tous les rails
d'une relation train
https://taginfo.openstreetmap.fr/keys/wikipedia#values

> c’est presque tout nettoyé

heu... ben du coup on discute de quoi ?
je pensais que tu voulais discuter s'il fallait ou pas
faire des opérations de masse

> Suffixes de langue inappropriés :
>   * subject:wikipedia:en

qu'est-ce qui n'est pas juste ?

> Tags d'éléments « supprimés »
>   * abandoned:wikipedia
> Faut-il les supprimer ?

cela n'a pas grand intérêt

Cordialement,
Marc
_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: Vérification des tags wikipedia et nettoyage ?

pyrog
In reply to this post by Bibi
@Jean-Yvon

Philippe, la réponse d'Yves est bonne car il ne parlait "que" des tags wikipedia.

Je confirme. Le sujet est déjà assez vaste et chiant comme ça 😀

Tu veux généraliser, ce n'est pas une mauvaise idée, tu proposes une base réutilisable par les différents éditeurs ?

J’ai fait un ticket (cf. infra) suggérant que le code du greffon wikipedia utilise déjà l’API wikimedia pour avoir une liste à jour.
Par défaut, le « contrôleur » (validator) de JOSM ne teste pas tout (en ne pas pas tout tester).
Le greffon wikipedia va plus loin, mais les 2 ne testent pas tous les cas, ils sont en partie redondant et parfois donnent des résultats différent.

Du coup, ça complique le travail de maintenance des données 😉😕

J’ai creusé un peu plus ce matin.

Le préfixe GL (galégo) provient d’une contribution récente sous iD par un « débutant » (94 contributions depuis 1 an).
Sous iD, si on colle une URL dans le formulaire wikipedia, la langue est saisie par défaut (le contributeur parle le galicien).

iD ne fait pas de contrôle sur le contenu du champ wikipedia… encore moins de transformation en File:Plano_de_Moaña.png

Le contrôleur par défaut de JOSM détecte un problème, mais ne le corrige pas. Le greffon ne voit rien.

Le 26/11/2019 à 22:53, Yves P. - [hidden email] a écrit :

Faut-il les nettoyer ?
  • gros travail…
  • la clé wikidata permet de gérer les libellés en plusieurs langues, les synonymes, les relations entre objets, les identifiants externes…
Oui si possible
Pour la clé wikipedia, il ne reste «  que » :
  • 61 URL
  • 15 fichiers wikimedia commons
  • 1 préfixe tronqué (e: au lieu de en:)
  • 1 préfixe wiki:
  • 1 préfixe language:
  • 478 objets ans préfixe (au minimum)
  • 78 encodées (contenant %XX)
  • 2669 contenant des _ à la place des espaces
  • ? combien avec des pages redirigées ou inexistantes ?

Et il y a toutes les autres sous clés wikipedia à vérifier 🤪😜

Il y a en avait beaucoup, c’est presque tout nettoyé. Est-ce que ça reviendra avec l’arrivée de contributeurs débutants ?

Oui

Je pense aussi.
Nous devons donc analyser ces erreurs pour fait des contrôles plus adaptés dans iD, JOSM… (et ou corriger des bugs).

Tags d'éléments « supprimés »
  • Faut-il les supprimer ?

Ça dépend des cas. Globalement ça ne mange pas de pain et si des gens ont jugé utile de les ajouter.

Il y a peut-être l’historique pour ça.
Mettre old_name et was:amernity=xxx et peut être suffisant ?

Je ne savais pas encore récemment, mais il est possible de faire des requêtes overpass dans le passé. 😉😎

  • former_operator:wikipedia
  • former:operator:wikipedia

Je ne vois pas trop l'utilité et il faudrait a minima passer à un préfixe de cycle de vie (was: ?)

Pour moi, à virer comme plus haut.
L’idée de mettre ca-nexiste-plus:amenity=* est plutôt bonne (c’est une forme de cycle de vie), mais au final ça « pollue »  la base.
Autant le garder pour le nom et l’objet principal, autant le virer pour les tags *:wikipedia:*

  • old_name:wikipedia
  • old_wikipedia
  • old_wikipedia:zh
  • old:wikipedia

J'ai du mal à comprendre. Si on a un ancien nom, dans l'article Wikipédia actuel il y sera fait référence et la page Wikipédia correspondante sera citée.

Du coup, pas d’intérêt à garder ça ?

not:brand:wikipedia

Ça c'est utile pour éviter que des cartographes en fauteuil ne disent que le restaurant McDonald est une franchise McDonald alors qu'il a juste le malheur de partager son nom.

ok pour garder not:brand=*
voir not:band:wikidata=* (overpass et le site web d’osm affichent les liens)
ça ne fait que 5 cas

Virer/corriger les valeurs incorrectes me semble plus utile. Par exemple en transformant ta revue des manques de vérification en tickets JOSM/iD…

2 ici pour JOSM : 

En fait il y a une multitude de chose à faire, ou à revoir. Il faut peut-être prendre du recul sur la façon de saisir et/ou de contrôler les données ?
Les validateurs de JOSM sont très bruyants, avec parfois des messages « ésotériques ».
Ils ne proposent pas toujours de nettoyage automatique.

Par exemple, saisir une article wikipedia, un élément wikidata ou une photo wikimedia commons… est peut-être plus facile pour les contributeurs en faisant un simple copier/coller de l’URL.

Si c’est vraiment le cas, il faut nettoyer ça à la saisie, ou simplifier le processus de saisie.
Dans iD, on tape un nom et il est recherché à la volé dans wikidata et wikipedia.

@Philippe
on doit donc normaliser la casse de ces codes […]
et ça traîne depuis des années et continue à compliquer les requêtes et à poser des problèmes d'évolution pour plus de langues ou de régions).
Oui. Le contrôleur du plugin dit clairement que ça doit être en minuscules et propose une réparation.
L’autre, dit qu’il ne reconnait pas le préfixe, mais ne propose rien.

Yves

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: Vérification des tags wikipedia et nettoyage ?

StephaneP
Le 27/11/2019 à 13:53, Yves P. a écrit :

Le préfixe GL (galégo) provient d’une contribution récente sous iD par un « débutant » (94 contributions depuis 1 an).
Sous iD, si on colle une URL dans le formulaire wikipedia, la langue est saisie par défaut (le contributeur parle le galicien).


J'ai croisé des cas semblables récemment, avec des transformation d'un tag

brand:wikipedia=fr:Système U

en

brand:wikipedia=en:Système U


Je ne suis pas certains que ça soit très pertinent comme modif.

Stf


_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: Vérification des tags wikipedia et nettoyage ?

pyrog
In reply to this post by marc marc
@marc
Comment repérer les valeurs et/ou les clés erronées ?

cela dépend de ce que tu veux en faire.
pour une édition de masse, le mieux est probablement de télécharger un
extrait France, de filtrer pour ne garder que les objets avec une clef
wikipedia et de tavailler dessus
Il n’y a pas forcément de grande quantité (quoi que avec toutes les sous clés)…
Mais un peu partout sur le globe… C’est très lourd à téléverser sur le serveur pays par pays.

Le plus simple serait d’avoir la bonne requête overpass et les corrections faites dans JOSM ou ses greffons.
Pour la requête, tout n’est pas faisable (cf. #146 faite il y a 5 ans déjà).
Pour rechercher les clés de la même façon avec taginfo, même problème (cf. #271)

pour améliorer la qualité des futures données, il est utile de faire les tickets/PR dans les éditeurs et osmose
Vous pouvez étayer les tickets existants 😎
Pour osmose, je sais qu’il fait des contrôle et des corrections. Pouvez-vous regarder de plus près ?

Faut-il les nettoyer ?

si cela te motive de proposer, n'hésites pas
Il y a des requêtes dans ma réponse à Jean-Yvon. L’intérêt de le faire à la main est de comprendre comment un contributeur arrive à faire ça.
Ça permettra de proposer des tickets et des correctifs plus adaptés et efficaces.

Si oui, comment ?
 * contrôles et corrections automatiques dans l’éditeur

à mon avis les 3
- un contrôle à la source est toujours mieux que de corriger après.
Oui et comme le précise Jean-Yvon, ça évitera que ça se reproduise.

pour éviter l'indigestion, je pense que tu devrais cibler
un cas à la fois : par exemple les valeurs génériques
ou les typo qu'il est possible parfois de corriger
automatiquement à partir du wikidata
ou n'importe quel autre cas qui te branche pour commencer :)
J’ai essayé de ne montrer que quelques exemples pour monter l’ampleur du bazar. Il y en a probablement pleins d’autres.
Je les ai mis en post-scriptum, j’aurais du rajouter un TL/DR 😁


J’ai aussi fait un tableau « synthétique » des contrôle des les éditeurs (mais le mél ne passe pas).

wikipedia=fr:Phare

introuvable même en utilisant overpass pour remonter au 1er janvier
tu as un exemple ?
c’était un exemple avec un mot au pif.
ici, modification faite volontairement avec iD : https://www.openstreetmap.org/node/331257382/history

Il y en avait 260 le 15 novembre : https://overpass-turbo.eu/s/OvN

a noter un cas fréquent en France : la mise du tag sur tous les rails d'une relation train

Je suis tombé sur celle-là : https://www.openstreetmap.org/relation/6051577
rien sur la relation, tout sur les chemins : donc à nettoyer

Si tu regardes les valeurs qui ont 3 ou plus de chemins, ça fait 10000 clés wikipedia !!!!!
La ligne Shinkansen Tōkaidō fait 514 km. Elle a 2239 membres sous OSM !!
Tous? les segments semblent avoir tous les tags dupliqués : https://www.openstreetmap.org/way/609446768

heu... ben du coup on discute de quoi ?
De comment éviter que ça revienne.
Nettoyer c’est bien, mais le faire façon tonneau des Danaïdes, c’est un vrai châtiment. 😀

je pensais que tu voulais discuter s'il fallait ou pas
faire des opérations de masse
Aussi, car il y a tous? les pays, et tous les sous tags wikipedias 😀

 * subject:wikipedia:en

qu'est-ce qui n'est pas juste ?
C’est peut-être redondant avec subject:wikipedia=ru:*. subject:wikidata=Qxxx est peut-être largement suffisant et produit moins de maintenance.
Aucun des outils suivant n’affiche de lien (OpenStreetMap, overpass-turbo, iD, JOSM)
Quand a subject:wikidata, il ne manque que pour iD.


Tags d'éléments « supprimés » Faut-il les supprimer ?
cela n'a pas grand intérêt
De les garder, c’est bien ça ?

Yves

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: Vérification des tags wikipedia et nettoyage ?

pyrog
In reply to this post by StephaneP
@Stéphane

J'ai croisé des cas semblables récemment, avec des transformation d'un tag brand:wikipedia=fr:Système U

Je ne suis pas certains que ça soit très pertinent comme modif.

Il n’y en que 2 : 1 en Espagne, l’autre au Portugal.
La page web anglaise existe bien (pas les pages en espagnol et en portugais).

Mais est-ce pertinent de saisir des brand:wikipedia alors que la combinaison brand=* et brand:wikidata=* est peut-être suffisante ?
Pour le moment, OSM n’affiche pas le nom en clair pour les wikidata.
Il faut donc cliquer sur le lien pour en savoir plus. Mais est-ce vraiment un problème ?

Yves

PS: pour tous les brand=*, brand:wikidata=*, brand:wikipedia=*, brand:wikipedia:en=*… redondant, ça fait beaucoup de données inutiles ?
environ 756000 brand=*, 475000 brand:wikidata et brand:wikipedia (cf. https://taginfo.openstreetmap.org/search?q=brand)


_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Généralisation — Re: Vérification des tags wikipedia et nettoyage ?

pyrog
In reply to this post by pyrog

Tu veux généraliser, ce n'est pas une mauvaise idée, tu proposes une base réutilisable par les différents éditeurs ?

Centraliser des regex, des extraits de code… pour les développeurs éviterait de réinventer la roue, et d’améliorer globalement OSM.

Où mettre ces infos : dans le wiki, GitHub, un GitLab, Trac… ?

Il y a aussi Wikidata. Cf. méls précédents.

Yves


_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

wikipedia=URL d'un autre wiki — Re: Vérification des tags wikipedia et nettoyage ?

pyrog
In reply to this post by marc marc
Bonjour,

pour éviter l'indigestion, je pense que tu devrais cibler : un cas à la fois
wikipedia=ru:http://kraeved.vp43.ru/wiki/Поминальный крест охотников и рыболовов

C’est un site mediawiki certes, mais le tag wikipedia=ru:Поминальный крест охотников и рыболовов ne permettra pas de retrouver l’article.
Je remplace par url=http://kraeved.vp43.ru/wiki/Поминальный крест охотников и рыболовов (ce n’est pas le site web officiel)

Yves

112 avec regex « wiki » 

Valeurs extraites avec cat wikipedia.json | jq --raw-output '[.data[].value|match(".*[:./]wiki.*";"i").string]|unique|.[]' >wikipedia.wiki-value.txt

cs:Wikimedia Česká republika
de:Wikimedia Deutschland
de:Wikingborg, Haus Parchmann
de:Wikinger-Museum Haithabu
de:Wikingturm
de:Wikipedia:Kontor Hamburg
de:Wikipedia:Lokal K
de:Wikipedia:WikiMUC
en:Wikimedia Foundation
en:Wikimedia UK
fr:Wikimédia France
fr:Wikipermanence
fr:Wikipédia:WikiPermanence/Montpellier
<a href="https://pl.m.xn--wikipedpl:parafia_w-xud._klemensa_w_lgocie_wielkiej" class="">https://pl.m.wikipedpl:Parafia_św._Klemensa_w_Lgocie_Wielkiej
hu:Wikipédia:Wikimédia Magyarország
pl:Wikielec (powiat braniewski)
pl:Wikielec (powiat iławski)
sv:Wikimedia Sverige
uk:wiki/Липняжка
uk:wiki/Федоро-Шулічине


_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: Vérification des tags wikipedia et nettoyage ?

marc marc
In reply to this post by pyrog
Le 27.11.19 à 15:16, Yves P. a écrit :
> Mais est-ce pertinent de saisir des brand:wikipedia alors que la
> combinaison brand=* et brand:wikidata=* est peut-être suffisante ?

les CLEFS et les VALEURS sont 2 choses qu'il faut séparer :

corriger les VALEURS erronées : je suis 100% pour.
mais choisir quel CLEF le monde entier doit ou pas utiliser,
ce n'est pas le bon endroit et je doute même que tu arrives
à un accord unanime nécessaire aux éditions de masse

2 exemples :

1) les tags _1 _2 _3 : je suis totalement contre, c'est une décision
controversée d'iD de créer un 2ieme tag avec _1 lors que l'utilisateur
veux rajouter une 2ieme fois le même tag.
lors que les 2 tags ont la même info (comme l'exemple que tu as donné
avec wikipedia=valeurnormale + wikipedia_1=url), c'est automatisable.
mais lorsque ce n'est pas le cas, c'est impossible d'automatiser.
faire une édition de masse mondiale qui les vire va être à juste titre
contestée s'il n'y a pas une discussion mondiale avant sur la ml talk.

2) wikidata <> wikipedia : la logique osm est d'avoir des tags lisible
pour les humains, par conséquent s'il ne doit y en avoir qu'un, c'est
wikipedia.
indpendament de cela, certains ont eu besoin d'un tag wikidata pour lier
différente base de donnée entre elle au lieu d'innoncer osm avec plein
de ref:a ref:b
mais rajouter un wikidata à qlq chose qui a un wikipedia, cela ne sert
pas à grand chose. et supprimer le wikipedia à un élément qui a un
wikidata, c'est illogique (il ne reste plus qu'un chiffre
au lieu d'avoir un tag lisible pour les humains)

> ça fait beaucoup de données inutiles ?

tout a fait. Vespucci a par exemple décider de ne plus ajouter les
wikidata venant du nsi, il ajoute uniquement les wikipedia
_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: Vérification des tags wikipedia et nettoyage ?

pyrog
> les CLEFS et les VALEURS sont 2 choses qu'il faut séparer :
>
> corriger les VALEURS erronées : je suis 100% pour.
C’est l’objet de ces méls

> mais choisir quel CLEF le monde entier doit ou pas utiliser,
> ce n'est pas le bon endroit
Je ne veux rien imposer, je me demande de l’intérêt d’avoir des tags « dupliqués », surtout en grande quantité (décroissance c’est un sujet pour certains en ce moment 😁).
Au passage c’est des  brand:* pour MacDo et compagnie. Un wikidata (cf. discussion plus bas) pour afficher le bon wikipédia, le logo internationalisé… c’est suffisant.

> et je doute même que tu arrives
> à un accord unanime nécessaire aux éditions de masse
L’idée n’est pas forcément de faire une édition de masse, mais de réfléchir à nos pratiques, à l’intérêt final, au coût que ça à sur la maintenance…

> 2 exemples :
>
> 1) les tags _1 _2 _3 : je suis totalement contre, c'est une décision
> controversée d'iD de créer un 2ieme tag avec _1 lors que l'utilisateur
> veux rajouter une 2ieme fois le même tag.
Zut, iD fait encore ça (je pensais que c’était une ancienne pratique)

> lors que les 2 tags ont la même info (comme l'exemple que tu as donné
> avec wikipedia=valeurnormale + wikipedia_1=url), c'est automatisable.
oui

> mais lorsque ce n'est pas le cas, c'est impossible d’automatiser.
Si c’est ce que font les règles dans JOSM : elles demandent à l’humain derrière le clavier de gérer 😉
Ou alors elles sont plus subtiles, ce que semble faire le greffon wikipedia de JOSM.
Du style, j’ai wikipedia:fr=* et pas de wikipedia=*, je change le tag en wikipedia=fr:*
J’ai wikipedia_1=fr:* wikipedia_2=de:* …, si je peux, je change les tags en wikipedia=fr:* wikipedia:de=* …
C’est ce que je fais manuellement. C’est l contributeur local qui décidera de ce qui est approprié.

> faire une édition de masse mondiale qui les vire va être à juste titre
> contestée s'il n'y a pas une discussion mondiale avant sur la ml talk.
Ok, quand on arrivera à un consensus francophone, je laisserai les spécialistes s’en occuper 😉
(Ou alors je prendrais le temps de suivre cette liste. La notre est déjà très énergivore 😀)

> 2) wikidata <> wikipedia : la logique osm est d'avoir des tags lisible
> pour les humains, par conséquent s'il ne doit y en avoir qu'un, c'est
> wikipedia.
Pour le moment 😉.

Sur le tableau que j’ai fait passé, on voit que iD et JOSM (avec le greffon wikipedia) affichent en clair et dans ta langue, le nom de l’élément wikidata.
iD permet même une saisie à la volée.

Il ne manque que l’affichage dans OSM et overpass… pour régler la question.
Je pense que c’est juste un bout de javascript à rajouter pour faire ça.

 (Note: Le tableau semble bloqué pour une question de taille)

> indpendament de cela, certains ont eu besoin d'un tag wikidata pour lier
> différente base de donnée entre elle au lieu d'innoncer osm avec plein
> de ref:a ref:b
Zut, c’est ce que je fais 😁
La question est subtile, on en avait déjà discuté dans le passé :
Avoir des identifiants dans OSM permet une certaine indépendance vis à vis de wikimedia, et des choses impossible à faire avec nos outils actuels.
Je cherche tous les phares avec un identifiant de la NGA n’est pas possible en l’état avec overpass.

> mais rajouter un wikidata à qlq chose qui a un wikipedia, cela ne sert
> pas à grand chose.
Si car ça lie directement l’objet OSM aux propriétés wikidata (les wikis, les propriétés non géographiques qui ne sont pas dans OSM…)
A terme, il n’y aura plus de wikipedia:*=* 😁 (cf. supra)

> et supprimer le wikipedia à un élément qui a un
> wikidata, c'est illogique (il ne reste plus qu'un chiffre
> au lieu d'avoir un tag lisible pour les humains)
Idem.

>
>> ça fait beaucoup de données inutiles ?
>
> tout a fait.
Quel est l’intérêt de consommer de l’énergie à stocker et à maintenir des données redondantes ?
Je parle d’huile de coude (sujet à la tendinite en ce moment à force de cliquer 😅), mais il est aussi possible de voir les centrales à charbon 🏭 et à uranium ☢️ au bout de la fibre optique 😇

> Vespucci a par exemple décider de ne plus ajouter les
> wikidata venant du nsi, il ajoute uniquement les wikipedia
C’est une solution que peu choisir la(es) communauté(s), en tout cas ça me parait important d’y penser.


Yves
_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: Vérification des tags wikipedia et nettoyage ?

pyrog
Je ne veux rien imposer, je me demande de l’intérêt d’avoir des tags « dupliqués », surtout en grande quantité (décroissance c’est un sujet pour certains en ce moment 😁).
Au passage c’est des  brand:* pour MacDo et compagnie. Un wikidata (cf. discussion plus bas) pour afficher le bon wikipédia, le logo internationalisé… c’est suffisant.
Un autre exemple : https://www.openstreetmap.org/node/6699737528

brand100%Banco
brand:wikidataQ517093
brand:wikipediaes:Banco de Venezuela
contact:facebookhttps://es-la.facebook.com/100x100banco/
contact:instagramhttps://www.instagram.com/100x100banco/?hl=es-la
contact:twitterhttps://twitter.com/100x100banco?lang=es
Peut-on mettre les contacts une fois pour toutes dans wikidata ?

Si non, ne peut-on pas mettre uniquement les identifiants dans contacts:* plus qu’une longue URL ?
Note: c’est le cas pour twitter, instagram, pas facebook.

Mais en pratique, seuls les URL ont des liens dans OSM, Overpass… donc les contributeurs mettent des URL 🥳

contact:facebook 51 591
facebook 18 085
website:facebook 116

Voici uniquement la première page de taginfo :
contact:facebook

contact:instagram
https://www.facebook.com/ruspost 2784
https://instagram.com/sberbank 1135
https://www.facebook.com/pyaterochka 1674
https://www.instagram.com/sberbank/ 742
https://www.facebook.com/sberbank 1657
https://www.instagram.com/mol.magyarorszag/ 444
https://www.facebook.com/vtbgroup 716
https://www.instagram.com/ruspostofficial 440
https://www.facebook.com/krasnoe.beloe 566
https://www.instagram.com/krasnoebeloe 342
https://www.facebook.com/mol.magyarorszag/ 444
http://instagram.com/perekrestok 325
https://www.facebook.com/perekrestok 426
https://www.instagram.com/izbenka_vkusvill 240
https://www.facebook.com/bankdruzey 418
https://www.instagram.com/mcdonalds_rus/ 229
https://www.facebook.com/mcdonaldsrussia 300
https://www.instagram.com/bankvtb 204
https://www.facebook.com/izbenka 294
https://www.instagram.com/sberbank 198
https://www.facebook.com/mts 269
https://www.instagram.com/orteka_rus/ 197
https://www.facebook.com/orteka.rus 198
https://instagram.com/krasnoebeloe 156

9746

4652
Il y a 31222 clé contact:facebook avec une URL et 15395 pour la clé facebook 🥳

Quel est l’intérêt de consommer de l’énergie à stocker et à maintenir des données redondantes ?
J’ai oublié la bande passante pour télécharger ça 😁😇

Yves

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: Vérification des tags wikipedia et nettoyage ?

pyrog

En principe, je dis bien en principe, ces infos doivent permettre de contacter l'agence.

Donc ici exit les contact:*


On va virer aussi les numéros de téléphone 😀

Valeur Quantité
+41 31 3213111 3152
+7 800 5555550 3078
+7 800 2009002 1581
+7 800 5555505 1578
+7 495 7873333;+7 800 3330303 1498
+7 495 539-54-54 1018
+7 800 3330201 985
+7 800 2005888 821
+33 1 58 34 44 10 781
+7 495 5005550 754
+375 44 7888880 723
+380 44 494 0101 711

Devinette : à qui appartient ce n° français ?
Réponse (surligner) Autolib' (Paris)

Yves

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: Vérification des tags wikipedia et nettoyage ?

verdy_p

Le mer. 27 nov. 2019 à 19:55, Yves P. <[hidden email]> a écrit :

En principe, je dis bien en principe, ces infos doivent permettre de contacter l'agence.

Donc ici exit les contact:*


On va virer aussi les numéros de téléphone 😀

Valeur Quantité
+33 1 58 34 44 10 781

Devinette : à qui appartient ce n° français ?
Réponse (surligner) Autolib' (Paris)
Autolib/Vélib Métropole (Grand Paris)

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: Vérification des tags wikipedia et nettoyage ?

marc marc
In reply to this post by pyrog
Le 27.11.19 à 17:57, Yves P. a écrit :
>> mais rajouter un wikidata à qlq chose qui a un wikipedia,
>> cela ne sert pas à grand chose.
> Si car ça lie directement l’objet OSM aux propriétés wikidata

ils sont déjà lié, ex le plugin josm wikidata propose
d'ajouter le wikidata à partir de l'url wikipedia

>>> ça fait beaucoup de données inutiles ?
>> tout a fait.
> Quel est l’intérêt de consommer de l’énergie à stocker et à maintenir des données redondantes ?

aucun, mais rien que toi et moi on n'est pas d'accord du quel
des 2 supprimer. alors on peux philosopher, mais sans aboutir.
La seule piste d'amélioration possible à court terme c'est de proposer
aux outils qui ne le font pas encore de gérer les 2 tags (= fonctionner
de la même manière en présence de n'importe lequel des 2)

en passant quelqu'un avait proposé un script d'intégration
osm-wikidata (par ex ajout de name:xx). a ma connaissance
aucun rendu ne l'a mis en place (ce serrait pratique sur les
rendus spécialisé sur une langue précise).
yaka mais il manque de bras :)
_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
12