Décrire et indexer ses sources

Bauhausgebäude Dessau, Fotopostkarte eines Bauhäuslers,7. Mai 1927.
© Gropius und Moholy: VG Bild-Kunst, Bonn, Bauhaus-Archiv / Museum für Gestaltung.
Source : Bauhaus-Archiv Inv. Nr. 12564. http://open-archive.bauhaus.de

La manipulation de sources diverses et variées (archives, photographies, entretiens, bâtiments…) peut rendre complexe l’organisation des données de sa recherche.

Assez rapidement, on se retrouve avec la question suivante : comment organiser au mieux une collection de documents afin de pouvoir plus tard retrouver facilement celui qui m’intéresse ?

Et à plus long terme, pour être efficace, il est aussi nécessaire de se poser la question suivante : comment organiser mes documents afin de pouvoir produire rapidement des annexes systématiques pour mon document de recherche ?

Par exemple : comment vais-je produire une liste avec les acteurs d’une situation, leurs métiers, les types d’interventions qu’ils ont eu sur un bâtiment, les dates des ces interventions, et les sources qui m’ont permis de construire cette liste ?

Assez rapidement, avec l’accumulation des informations, un classement ne suffit plus. On peut utiliser, pour s’aider, un tableur, ou, pour un ensemble plus important de documents, des logiciels dédiés, qui utilisent des bases de données (Zotero pour sa bibliographie, Tropy pour ses sources, par exemple).

Mais, le problème du choix des termes pour remplir ses tableaux, ou ses bases de données reste entier : Comment vais-je choisir les mots pour remplir les cases ou pour apposer des tags sur les documents, qui me permettront de les retrouver facilement, et de constituer des annexes cohérentes à mon mémoire de recherche ?

On se retrouve donc avec la nécessité d’utiliser un vocabulaire restreint et logiquement organisé pour décrire sa source, pouvoir ainsi retrouver l’information et constituer des annexes organisées.

La grande majorité des systèmes documentaires que nous utilisons pour nos recherches (catalogues des bibliothèques, bases de données d’archives publiques par exemple ; mais, en architecture, aussi, inventaires d’édifices par exemple) utilisent des listes systématiques de termes pour décrire les documents : ce sont des « thesauri » (pluriel de thesaurus), qui se basent sur des listes de « descripteurs ».

Qu’est-ce qu’un thesaurus ?

Il s’agit d’avoir une liste de termes en nombre limités pour classer des documents, remplir les champs d’un formulaire de façon systématiques, apposer aux documents selon les cas un « tag », un « marqueur » ou un « mot-matière » (selon les logiciels et systèmes d’information).

Descripteurs

Ces termes sont appelés « descripteurs » en langage documentaire.

Un descripteur est mot, ou groupe de mots, retenu dans un thésaurus et choisi parmi un ensemble de termes équivalents pour représenter sans ambigüité une notion contenue dans un document ou dans une demande de recherche documentaire. On emploie souvent indifféremment descripteur ou mot-clé, les deux mots ne sont pas synonymes et le second a un sens plus restreint. Un mot-clé [Tag]est une partie du titre ou du texte d’un document, généralement des mots, caractérisant le contenu de ce document et en permettant la recherche.

Les descripteurs peuvent être des mots simples, mais très souvent ce sont des groupes de mots qui doivent avoir un sens plein par eux-mêmes. Il arrive souvent qu’on ne puisse prendre un mot seul parce qu’équivoque.

Thésaurus et terminologie 2012, Cour de traitement automatique de texte. Source : https://terminologie2011.wordpress.com/2012/03/19/mise-en-contexte/

Listes d’autorité

Les « descripteurs » sont organisés en listes logiques (appelées « listes d’autorité » ), ils sont reliés entre eux par des relations hiérarchiques ou sémantiques (équivalence, hiérarchie, association, synonymie…) exprimées grâce à des signes conventionnels. Il peut y avoir par exemple une liste pour découper le temps en périodes, une liste des types de métiers, des types de matériaux, des fonctions de bâtiments, etc.

Thesaurus

L’ensemble des listes de termes choisies dans un système d’information forme un thesaurus complet.

Le thesaurus, constitué de listes de « descripteurs » sert à traduire notre langage quotidien, dit « naturel » en langage documentaire, artificiel et beaucoup plus restreint, mais qui permet d’organiser les informations, et d’y accéder.

Classer et indexer

Classification

Quand on entre dans une bibliothèque, celle-ci contient un certain nombre de rayons thématiques, et de cotes, qui répondent à une organisation assez normalisée, même si une certaine marge de manœuvre existent, pour des raisons pratiques. Ils sont organisés au sein d’une classification.

En son sens générique, la classification est une « répartition systématique en classes, en catégories, d’êtres, de choses ou de notions ayant des caractères communs notamment afin d’en faciliter l’étude; résultat de cette opération » (Trésor de la langue française informatisé). Elle répond à un besoin constant de l’esprit humain d’organiser les savoirs pour les articuler entre eux (la démarche encyclopédique, par exemple), et de  catégoriser les savoirs au sein d’une hiérarchie ou d’une chronologie (classification des espèces, par exemple). Dans les bibliothèques, ce système est hiérarchisé de façon à organiser les connaissances en ensembles de contenus voisins et à organiser entre ces connaissances des jeux de relations.

Entrée « classification » du dictionnaire de l’ENSSIB. Source : https://www.enssib.fr/le-dictionnaire/classification

La plupart des bibliothèques françaises utilisent, par exemple, la classification décimale de Dewey pour organiser les ouvrages. Il s’agit d’une classification hiérarchique, qui identifie de grands domaines de connaissances (philosophie, religion, sciences sociales, langues, sciences pures, techniques, beaux-arts et loisirs, littératures, géographie et histoire, généralités) pour ensuite les subdiviser en 10 divisions puis en 1000 sections.

Mais la généralisation du web a amené à un usage de plus en plus important de classifications relationnelles. Comment les classifications à facettes, dont elles sont héritières, elles visent à répondre au problème posé par Jorge Luis Borges :

« Comment ranger les livres dans une bibliothèque quand on sait qu’il y en a des grands et des petits, des livres d’histoire et des romans, des auteurs qui ont écrit les deux et des collections reliées qui traitent de tout et que l’on doit y ajouter les dossiers correspondant aux différents sujets ? »

Jorges Luis Borges, La Bibliothèque de Babel, 1941.

Dans cette approche, il s’agit de classifier des concepts plutôt que des sujets : une facette est un critère de division non hiérarchique. On peut rassembler au sein d’une même catégorie des documents qui ont une caractéristique, un attribut, en commun.

Elle est très adaptée à des listes de tags, qui peuvent être apposés à des documents classés dans des endroits différents.

Ce type de classification apporte une flexibilité plus importante que les classifications hiérarchiques : l’utilisateur a à sa disposition un plus grand nombre e voies d’accès différentes à un même document.

De façon plus abstraite, cette approche prend en compte l’idée qu’un même document, peut-être vu sous des angles très différents.

Cette approche de l’organisation de la connaissance serait elle-même motivée par l’idée qu’il existe une multiplicité de perspectives sous lesquelles concevoir la réalité, de sorte que tout phénomène complexe peut être considéré et dès lors décomposé selon plusieurs points de vue, plusieurs facettes qui le caractérisent1,2.

[1] Simon Côté-Lapointe et Sabine Mas, « La notion de facettes appliquée aux archives: un outil pour faciliter l’organisation et la diffusion », Arbido, no 3,‎ 2017 (lire en ligne [archive])

[2]Francis Beau, « Facettes et système d’information. Une approche de la classification focalisée sur un besoin de savoir pour agir », Les Cahiers du numérique, vol. 13, no 1,‎ 2017, p. 126-127 (ISSN 1622-1494, lire en ligne [archive])


Wikipédia, classification à facettes. Source : https://fr.wikipedia.org/wiki/Classification_%C3%A0_facettes

Concrètement, cette approche permet de filtrer des listes importantes de documents à partir de mots-clefs spécifiques, et ce, même s’ils sont par ailleurs classés dans les rayons différents d’une bibliothèque, d’un magasin d’archives ou d’une base de données.

L’indexation : apposer des tags

L’étape de travail qui consiste à apposer des tags (ou mots-clés, marqueurs, mot-matière, selon les systèmes d’informations au sein desquels on travaille) s’appelle l’indexation.

L’indexation consiste à attribuer à un document une marque distinctive renseignant sur son contenu et permettant de le retrouver.
Elle se traduit par la recherche d’un symbole numérique ou nominal à partir de l’analyse du contenu du document. Ce symbole peut être :

– tiré d’une classification (indice). On parle alors d’indexation systématique.
– constitué d’un ou de plusieurs mots-clés. On parle alors d’indexation analytique ou d’indexation alphabétique matière.

Glossaire des centres régionaux de formations aux carrières des bibliothèques. http://blogs.univ-poitiers.fr/glossaire-mco/2012/06/11/indexation/

Constituer son thesaurus pour sa recherche

On l’a vu, la façon dont on décrit et dont on classe les documents rend compte d’un point de vue sur le réel et sur la connaissance. Elle témoigne donc du point de vue du chercheur sur son objet de recherche. Il est donc nécessaire de se constituer un thesaurus personnel qui permettra de répondre aux questions que l’on pose, de créer des annexes, mais aussi, dans certains cas, qui intègre les critères que l’on se donne pour la sélection et l’évaluation de son corpus.

Inventer ses propres termes et les utiliser de façon systématique est souvent plus long que d’utiliser des nomenclatures déjà existantes, quitte à la compléter, voire à l’adapter ensuite. Inutile donc de réinventer l’eau chaude, mais, par contre, il est intéressant de se questionner sur les termes et les catégories que l’on va utiliser au sein de sa recherche.

Thesaurus institutionnels

Pour la recherche en architecture, les vocabulaires du Ministère de la Culture et de la Communication ou deux produits par la Ministère de la Transition Écologique et solidaire peuvent être utiles pour se constituer des listes organisées de termes. Il faut souvent les restreindre pour ne conserver que ce qui concerne sont objet de recherche. Par ailleurs, il reste nécessaire de conserver un regard critique sur les catégories construite par ces institutions, à l’aide de chercheurs et d’experts.

Archives

Certaines listes de termes concernent les archives locales :

Iconographie

D’autres termes sont utilisés par les musées de France pour décrire les objets qu’ils conservent dans la base de données Joconde. Ils peuvent être utiles pour décrire un document iconographique, par exemple dans Zotero ou Tropy. Cela permet de rendre les légendes de ses illustrations dans un mémoire plus homogènes. Ils sont particulièrement utiles dès lors que sa recherche prend en compte l’histoire de l’art :

  • La liste des « stades de création » permet de décrire de façon différentiée certaines sources originales et leur reproduction par exemple.
  • La liste des « techniques photographiques » est utile pour décrire certaines images anciennes.
  • La liste des « techniques et matériaux » permet de décrire par quelle technique la source a été produite. Parmi les techniques de dessin, on trouve par exemple « dessin au trait », « crayon noir », « encre bleue », etc. Il peut être complété par des définitions des termes employés.
  • Il existe aussi une liste des « statuts juridiques » , qui peut être utile pour les légendes.
  • La liste des « sources de la représentation » fournie peut aussi être utile pour classer des textes par genre littéraire.

Périodes

Par définition, dans une recherche historique, on peut employer des découpages temporels très différents, qui rendent compte du phénomène que l’on étudie. Cependant, pour des raisons pratiques, il est utile d’apposer des tags sur ses documents décrivant des grandes et petites périodes pour pouvoir les retrouver facilement.

La liste d’autorité utilisée pour la base de données Joconde est assez pratique de ce point de vue. Elle découpe de façon hiérarchique les millénaires, puis les siècles, puis les moitiés de siècle, puis les quarts de siècles, etc. C’est à la fois simple et pratique pour classer ses documents, si l’on fait une recherche historique. On peut, bien sûr, utiliser en complément sa propre périodisation, issues d’une réflexion sur son objet de recherche.

Dates

La plupart des bases de données contiennent la possibilité de rentrer une date ou un intervalle de dates (de Date1 à Date2), dont on peut calculer la durée (valeur de la Date1- Valeur de la Date2).

Exemple :

  • Date1 : « 1939 »
  • Date2 : « 1945 »
  • Intervalle de dates : « 1939-1945 » ou « de 1939 à 1945 » ou « entre 1939 et 1945 »
  • Durée : 1945-1939 = 6 ans.

Mais on peut avoir aussi besoin de contextualiser plus précisément une date, on utilise pour cela un qualifieur de date :

  • à partir de
  • jusque
  • après
  • avant
  • depuis
  • en
  • vers

Exemple :

  • à partir de 1939
  • jusque 1939
  • après 1939
  • avant 1939
  • depuis 1939
  • en 1939
  • vers 1939

Architecture Et urbanisme

  • Le thésaurus de la désignation des œuvres architecturales et des espaces aménagés (en pdf, ici) permet d’interroger la base Mérimée, base du ministère la Culture dédiée au patrimoine architecturale (inventaires patrimoniaux).
    • Le thésaurus de l’architecture développe sous une forme méthodique 1135 termes utiles à la dénomination des œuvres architecturales.
    • C’est un thesaurus hiérarchique : chaque terme est situé dans des catégories fonctionnelles liées à l’usage religieux, funéraire, industriel, etc.
    • Avantage : il comporte en outre tous les renvois nécessaires, des définitions sommaires, des notes d’utilisation. Il comporte aussi une catégorie « urbanisme et espaces aménagés« .
    • Inconvénients : les catégories d’édifices mélangent des aspect fonctionnels et formels peut utiles quand un même bâtiment a été reconverti pour plusieurs usages différents au fil du temps. Cette approche n’est pas toujours adaptée à une analyse architecturale des édifices, plus spatiale et formelle, moins fonctionnelle.
  • Urbamet : un thésaurus destiné aux professionnels de l’urbanisme. Malheureusement, seules les notices des deux dernières années sont mises en ligne. Son usage est réservé aux membre de certains ministères. Ce thesaurus a servi de base pour l’élaboration des mots-matières (tags thématiques) du catalogue de la BNF. Un appel à projet pour sa gestion a été lancé en 2020. A suivre…
  • Urbadoc : La base de données Urbadoc rassemble différentes bases de données bibliographiques produites par les membres de l’Association Urbandata (Espagne, Allemagne, France et Italie)  soit plus de 700 000 notices de publications scientifiques. Pour les plus récentes, le texte intégral est parfois mis à disposition. Les références couvrent la période du début du XXe siècle à nos jours. Ce produit, principalement destiné aux bibliothèques, institutions publiques, organismes de recherche, des musées, des centres de documentation, est disponible sur Google Scholar, Primo Central, EDS EBSCO.Une partie de l’accès à Urbadoc est gratuite. Pour avoir accès aux notices complètes, il est nécessaire de s’abonner.