LINUX:Récolte des données

De WIKI sur Linux (ADB)
Aller à la navigation Aller à la recherche

retour à la page du menu sur l'API de GéoLocalisation


But

Nous allons passer en revue les sources de données pour les pays ciblés.

Nous avons ciblé la Belgique et la France.

Notons que tous ces fichiers sont téléchargeables via les scripts fournis dans l'article suivant.


Codes des pays

En premier lieu, on a besoin des codes des pays concernés. Une recherche rapide sur Internet nous les donnent facilement.


Belgique

La Belgique est constituée de trois régions: Bruxelles Capitale, la Flandre et la Wallonie. Les données ont pour origine des sites officiels gouvernementaux via des services informatiques en charge des aspects Informatiques.


Niveau fédéral

Au niveau Européen, chaque pays jusqu'au niveau de découpage communal possède un numéro de code Insee.

L'URL suivante https://statbel.fgov.be/fr/propos-de-statbel/methodologie/classifications/geographie nous donne accès à ces codes que nous pouvons télécharger. On choisit le fichier REFNIS au format CSV le plus récent.


LINUX:Belgique.png


Région Bruxelles Capitale

Son service informatique CIRB fournit un ensemble conséquent de téléchargement à l'URL suivante: https://datastore.brussels/web/urbis-download

Il faut affiner la sélection comme montré sur l'écran ci-dessous.


LINUX:Bruxelles.png


Il fournit un fichier Microsoft Access conséquent dont une seule table nous intéresse.


La Flandre

L'URL https://overheid.vlaanderen.be/fr/producten-diensten/address-register-crab donne accès à divers téléchargements. Nous choisissons le premier "Positions d'adresse CRAB". Il nous donne accès aux format Microsoft Access et dBase. Nous avons choisit le second. Ce schéma de base de données présenté est très éclaté. Parmi les nombreuses tables disponibles, celles qui nous intéressent, ne contiennent qu'une colonne utile; à côté se retrouve les liens vers les autres tables. Le travail nécessaire pour rassembler toutes les données qui nous intéressent est conséquent et nécessite un temps de traitement important. Ces tables rassemble les données pour toute la Belgique sauf pour leurs positions géographiques qui ne concernent que la Flandre.


LINUX:Flandre.png


La Wallonie

On peut télécharger le fichier convoité à l'URL http://geoportail.wallonie.be/catalogue/2998bccd-dae4-49fb-b6a5-867e6c37680f.html . Dans le futur, il faudra être attentif à la version; actuellement, il s'agit de la version de 2020. Le format du fichier est CSV.


LINUX:Wallonie.png


Coordonnées géographiques

Le système de coordonnées géographique contenu dans ces fichiers est propre à la Belgique. La Belgique utilise le système de projection Lambert Belge de 1972. Nous devrons le transformer dans le système "WGS84" (World Geodetic System 1984), standard pour les GPS.


La France

On peut facilement trouver la liste des régions et des départements et leurs code Insee; seul quelques uns d'Outre-Mer sont plus difficile à recenser.

Trois sources de données nous ont été utiles:

  • La liste des communes est disponible à l'URL https://www.insee.fr/fr/information/4316069 . On privilégie le format CSV. Sur cette même page, on retrouve les départements et les régions.


LINUX:France.communes.1.png
LINUX:France.communes.2.png
LINUX:France.communes.3.png
LINUX:France.communes.4.png


  • La liste des codes postaux est disponible à l'URL https://datanova.laposte.fr/explore/dataset/laposte_hexasmal/export/?disjunctive.code_commune_insee&disjunctive.nom_de_la_commune&disjunctive.code_postal&disjunctive.ligne_5 . On privilégie le format CSV.


LINUX:France.poste.png


  • Comme pour la Belgique, les données géolocalisée de toutes les maisons de France accompagnées de la rue, de la commune et du code postal sont souhaitées. On s'est tourné vers le projet BANO du projet Open Source OpenStreetMap. Ce projet est limité à la France; celui pour la Belgique est sur les rails (projet BANBO) mais les données ne sont pas encore disponibles. Les données sont téléchargeables à l'URL http://bano.openstreetmap.fr/data/ . Nous utiliserons les fichiers départementaux pour une question d'efficacité et pour pouvoir reprendre de traitement en cours en cas de problème. La vue ci-dessous est tronquée vu la longueur de la liste. On privilégie le format CSV. Le système de localisation est WGS84 rencontré plus haut.


LINUX:Bano.png


Note

Les fichiers de localisation contiennent quelques communes ou codes postaux non repris dans les listes officielles. Parfois, il s'agit de communes qui ont existé et qui sont encore repris. Elle concerne aussi les différents arrondissements des villes de Lyon, Marseille et Paris. Pour résoudre ces problèmes de correspondance, des fichiers de données ont été constitués manuellement et portent dans leur nom de fichier, le terme ".ajout.".




retour à la page du menu sur l'API de GéoLocalisation