Nettoyer et enrichir ses données : Open Refine

Upsala bild, Femme travaillant à Uppsala Silk Weaving, 1948.
Upplands Museum, Sweden.CC BY-NC-ND. https://www.europeana.eu/fr/item/91617/upmu_photo_UB013010

Open Refine est un logiciel libre de nettoyage de tables de données. Il est principalement utilisé par des professionnels des services d’archives ou des bibliothèques.

Il offre certaines possibilités supplémentaires par rapport à des logiciels de tableur de base comme LibreOffice Calc ou Excel :

  1. Visualiser des données disponibles sur le web qui ont des formats spécifiques
  2. Nettoyer des tables de données
  3. « Réconcilier » ou « Aligner » des données venant de sources différentes.

Installer le logiciel et ses extensions

Logiciel

Télécharger

Extensions

Manuels et tutoriels généraux

Manuel officiel (anglais)

Tutoriel réalisé par Mathieu Saby (français)

Tutoriel réalisé par Maïwenn Bourdic (français)

Récoler (« réconcilier » ou « apparier ») des données

Notions de base

Réaliser des jointures entre des tables de données

C’est une fonction classique dans les bases de données : il est possible de faire coïncider des champs identiques pour apparier des données provenant de deux sources différentes.

Fuzzy-matching : appariement

C’est probablement une des fonctions les plus intéressantes d’Open Refine, puisqu’elle permet d’apparier des données qui ne sont pas strictement identiques.

Il est ainsi possible d’apparier des données entre deux fichiers csv.

Appariement avec des sources web externes

Il est aussi possible d’apparier des données avec des bases de données en libre accès sur le web (VIAF, Wikidata, par exemple).

Sources pour la réconciliation de données : Reconciliation service test bench

Webscrapping