[Siren] Ne garder que les boîtes dans une région donnée ?

Previous Topic Next Topic
 
classic Classic list List threaded Threaded
5 messages Options
Reply | Threaded
Open this post in threaded view
|

[Siren] Ne garder que les boîtes dans une région donnée ?

Shohreh
Bonjour,

La question ne concerne pas OSM, mais peut-être des gens ici ont-ils
déjà travaillé avec le fichier des entreprises (Siren) de l'Insee, que
Christian Quest a d'ailleurs modifié pour ajouter la géolocalisation :

https://www.insee.fr/fr/information/3591226
https://www.data.gouv.fr/fr/datasets/base-sirene-des-entreprises-et-de-leurs-etablissements-siren-siret/
http://data.cquest.org/geo_sirene/v2019/

Du fichier d'origine StockEtablissementActif_utf8_geo.csv, j'aimerais ne
garder que les entreprises dans telle ou telle région, mais sauf erreur,
la colonne n'existe pas:

=================
siren, nic, siret, statutDiffusionEtablissement,
dateCreationEtablissement, trancheEffectifsEtablissement,
anneeEffectifsEtablissement,
activitePrincipaleRegistreMetiersEtablissement,
dateDernierTraitementEtablissement, etablissementSiege,
nombrePeriodesEtablissement, complementAdresseEtablissement,
numeroVoieEtablissement, indiceRepetitionEtablissement,
typeVoieEtablissement, libelleVoieEtablissement,
codePostalEtablissement, libelleCommuneEtablissement,
libelleCommuneEtrangerEtablissement, distributionSpecialeEtablissement,
codeCommuneEtablissement, codeCedexEtablissement,
libelleCedexEtablissement, codePaysEtrangerEtablissement,
libellePaysEtrangerEtablissement, complementAdresse2Etablissement,
numeroVoie2Etablissement, indiceRepetition2Etablissement,
typeVoie2Etablissement, libelleVoie2Etablissement,
codePostal2Etablissement, libelleCommune2Etablissement,
libelleCommuneEtranger2Etablissement,
distributionSpeciale2Etablissement, codeCommune2Etablissement,
codeCedex2Etablissement, libelleCedex2Etablissement,
codePaysEtranger2Etablissement, libellePaysEtranger2Etablissement,
dateDebut, etatAdministratifEtablissement, enseigne1Etablissement,
enseigne2Etablissement, enseigne3Etablissement,
denominationUsuelleEtablissement, activitePrincipaleEtablissement,
nomenclatureActivitePrincipaleEtablissement,
caractereEmployeurEtablissement, longitude, latitude, geo_score,
geo_type, geo_adresse, geo_id, geo_ligne, geo_l4, geo_l5
=================

Avant de faire une moulinette pour retrouver la région pour chaque code
postal, ce fichier existerait-il déjà quelque part ?

Merci.


_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: [Siren] Ne garder que les boîtes dans une région donnée ?

pyrog

Avant de faire une moulinette pour retrouver la région pour chaque code
postal, ce fichier existerait-il déjà quelque part ?

Il faut le faire par départemen, c'est plus simple 😀

Et le n° de département c'est les 2 premiers chiffres du code postal pour la métropole, et les 3 premiers pour les DOM-TOM (97*).

__
Yves

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: [Siren] Ne garder que les boîtes dans une région donnée ?

Shohreh
On 30/11/2020 20:51, Yves P. wrote:

Avant de faire une moulinette pour retrouver la région pour chaque code
postal, ce fichier existerait-il déjà quelque part ?

Il faut le faire par départemen, c'est plus simple 😀

Et le n° de département c'est les 2 premiers chiffres du code postal pour la métropole, et les 3 premiers pour les DOM-TOM (97*).

Ah oui, plus simple. Et vu le nombre de boîtes même dans une seule région, je vais d'ailleurs faire un export "un département = un fichier CSV".

Merci.


_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Reply | Threaded
Open this post in threaded view
|

Re: [Siren] Ne garder que les boîtes dans une région donnée ?

cquest
In reply to this post by Shohreh
Dans http://data.cquest.org/geo_sirene/v2019/last/dep/ se trouvent des
fichiers découpés par départements.

Il suffit de fusionner ceux des départements de la région.


Ne JAMAIS UTILISER LE CODE POSTAL pour ce type de traitement, mais le
code INSEE de la commune (codeCommuneEtablissement).

1) ça évite de se prendre la tête avec les codes département à 2 ou 3
chiffres (qui, au passage ne différencient pas Corse du Sud et Haute Corse)

2) certaines communes ont leur CP rattaché au département voisin

3) le CP est valable à l'adresse, pas pour une commune entière, une
partie d'une commune peut avoir un CP différent, voire même issu d'un
département autre que celui de la commune.


Le CP ne sert qu'à envoyer du courrier, à rien d'autre !


Le 30/11/2020 à 20:22, Gilles G. a écrit :

> Bonjour,
>
> La question ne concerne pas OSM, mais peut-être des gens ici ont-ils
> déjà travaillé avec le fichier des entreprises (Siren) de l'Insee, que
> Christian Quest a d'ailleurs modifié pour ajouter la géolocalisation :
>
> https://www.insee.fr/fr/information/3591226
> https://www.data.gouv.fr/fr/datasets/base-sirene-des-entreprises-et-de-leurs-etablissements-siren-siret/ 
>
> http://data.cquest.org/geo_sirene/v2019/
>
> Du fichier d'origine StockEtablissementActif_utf8_geo.csv, j'aimerais
> ne garder que les entreprises dans telle ou telle région, mais sauf
> erreur, la colonne n'existe pas:
>
> =================
> siren, nic, siret, statutDiffusionEtablissement,
> dateCreationEtablissement, trancheEffectifsEtablissement,
> anneeEffectifsEtablissement,
> activitePrincipaleRegistreMetiersEtablissement,
> dateDernierTraitementEtablissement, etablissementSiege,
> nombrePeriodesEtablissement, complementAdresseEtablissement,
> numeroVoieEtablissement, indiceRepetitionEtablissement,
> typeVoieEtablissement, libelleVoieEtablissement,
> codePostalEtablissement, libelleCommuneEtablissement,
> libelleCommuneEtrangerEtablissement,
> distributionSpecialeEtablissement, codeCommuneEtablissement,
> codeCedexEtablissement, libelleCedexEtablissement,
> codePaysEtrangerEtablissement, libellePaysEtrangerEtablissement,
> complementAdresse2Etablissement, numeroVoie2Etablissement,
> indiceRepetition2Etablissement, typeVoie2Etablissement,
> libelleVoie2Etablissement, codePostal2Etablissement,
> libelleCommune2Etablissement, libelleCommuneEtranger2Etablissement,
> distributionSpeciale2Etablissement, codeCommune2Etablissement,
> codeCedex2Etablissement, libelleCedex2Etablissement,
> codePaysEtranger2Etablissement, libellePaysEtranger2Etablissement,
> dateDebut, etatAdministratifEtablissement, enseigne1Etablissement,
> enseigne2Etablissement, enseigne3Etablissement,
> denominationUsuelleEtablissement, activitePrincipaleEtablissement,
> nomenclatureActivitePrincipaleEtablissement,
> caractereEmployeurEtablissement, longitude, latitude, geo_score,
> geo_type, geo_adresse, geo_id, geo_ligne, geo_l4, geo_l5
> =================
>
> Avant de faire une moulinette pour retrouver la région pour chaque
> code postal, ce fichier existerait-il déjà quelque part ?
>
> Merci.
>
>
> _______________________________________________
> Talk-fr mailing list
> [hidden email]
> https://lists.openstreetmap.org/listinfo/talk-fr
>
--
Christian Quest - OpenStreetMap France


_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr
Christian Quest - cquest@openstreetmap.fr
Reply | Threaded
Open this post in threaded view
|

Re: [Siren] Ne garder que les boîtes dans une région donnée ?

Philippe Verdy
Si c'est juste pour découper les changesets et que les entités chargées dans OSM sont séparées, un découpage basé sur le code postal suffit bien, ce découpage par département étant aussi arbitraire que celui par commune (et on n'est pas obligé d'avoir une géométrie exacte des frontières si des polygones simples simplifient le travail sans fouiller les méandres des frontières officielles. Ici ce qui compte c'est la facilité de maintenance des jeux de données.

Donc tant qu'un code postal dans le jeu de données reste un code postal et n'est pas importé pour autre chose dans un autre tag, tout va bien: le découpage peut aussi bien être une grille à carreaux réguliers. C'est juste une facilité de travail qui permet d'avancer plus vite, oublier moins de choses et avoir une bonne idée de l'état d'avancement (sans avancer dans le désordre le plus complet qui ne permet pas de savoir où on en est exactement et de garantir un bon assez niveau d'exhaustivité pour une date de référence donnée (qu'il faudrait inclure dans le jeu de données importées, au moins dans la spécification de la source de données pour que plus tard on puisse en déterminer la fraicheur relative et quand il faudra songer à mettre à jour ou revalider). Pour les imports il reste aussi utile de conserver dans les données importées la référence unique du jeu de données sources (pour les rapprochements ultérieurs nécessaires pour gérer les mises à jour et ne pas ajouter une masse considérable de travaux à faire pour recoller approximativement les morceaux et éviter les doublons).

Au final dans OSM on pourra encore redécouper les données chargées sur des frontières plus exactes et pas forcément au même niveau de granularité territoriale que l'import. La remarque du code postal ne vaut donc que pour les tags qu'on applique aux données individuelles importées et correctement géolocalisées et fusionnées de façon cohérente avec le reste des données.

Le mar. 1 déc. 2020 à 18:30, Christian Quest <[hidden email]> a écrit :
Dans http://data.cquest.org/geo_sirene/v2019/last/dep/ se trouvent des
fichiers découpés par départements.

Il suffit de fusionner ceux des départements de la région.

Ne JAMAIS UTILISER LE CODE POSTAL pour ce type de traitement, mais le
code INSEE de la commune (codeCommuneEtablissement).

1) ça évite de se prendre la tête avec les codes département à 2 ou 3
chiffres (qui, au passage ne différencient pas Corse du Sud et Haute Corse)

2) certaines communes ont leur CP rattaché au département voisin

3) le CP est valable à l'adresse, pas pour une commune entière, une
partie d'une commune peut avoir un CP différent, voire même issu d'un
département autre que celui de la commune.

Le CP ne sert qu'à envoyer du courrier, à rien d'autre !

_______________________________________________
Talk-fr mailing list
[hidden email]
https://lists.openstreetmap.org/listinfo/talk-fr