Open Refine est un logiciel libre de nettoyage de tables de données. Il est principalement utilisé par des professionnels des services d’archives ou des bibliothèques.
Il offre certaines possibilités supplémentaires par rapport à des logiciels de tableur de base comme LibreOffice Calc ou Excel :
- Visualiser des données disponibles sur le web qui ont des formats spécifiques
- Nettoyer des tables de données
- « Réconcilier » ou « Aligner » des données venant de sources différentes.
Installer le logiciel et ses extensions
Logiciel
Extensions
- Reconcile-csv
- VIB-Bits
- Named-Entity Recognition
- OSM-extractor (OpenRefine 3.5+)
- Geojson-export (OpenRefine 3.5+)
- FAIR-metadata (OpenRefine 3.4.1+)
- String-Transformers (OpenRefine 3.4.1+)
- RDF-extension (Java 8+; OpenRefine 3.3+)
Manuels et tutoriels généraux
Tutoriel réalisé par Mathieu Saby (français)
Tutoriel réalisé par Maïwenn Bourdic (français)
Récoler (« réconcilier » ou « apparier ») des données
Notions de base
Réaliser des jointures entre des tables de données
C’est une fonction classique dans les bases de données : il est possible de faire coïncider des champs identiques pour apparier des données provenant de deux sources différentes.
Fuzzy-matching : appariement
C’est probablement une des fonctions les plus intéressantes d’Open Refine, puisqu’elle permet d’apparier des données qui ne sont pas strictement identiques.
Il est ainsi possible d’apparier des données entre deux fichiers csv.
Appariement avec des sources web externes
Il est aussi possible d’apparier des données avec des bases de données en libre accès sur le web (VIAF, Wikidata, par exemple).
Sources pour la réconciliation de données : Reconciliation service test bench