17 Mai 2008    

Gouvernance

Solutions

Technologies

Marchés

Recherche documentaire

Document, connaissances, GED

 
 
 
 
 

Comment retrouver une information parmi des milliers d'autres ?
Le problème n'est pas nouveau, les solutions non plus, elles ont toutes au moins une trentaine d'années.
Les techniques de recherche documentaire sont employées dans une recherche sur le web, comme dans l'exploration des documents patrimoniaux de l'entreprise.

Qu'est-ce qu'une mauvaise recherche ?

Une recherche ne trouvant pas de réponse n'est pas la seule forme de mauvaise recherche. Les deux écueils de la recherche sont les bruits et les silences.

  • les bruits : sont les résultats non pertinents obtenus (parfois plusieurs milliers dans une question à Google). Lorsque ces mauvais résultats sont très nombreux, ils masquent complètement les bonnes réponses, qui se trouvent noyées dans la masse.
  • les silences : plus dangereux, les documents pourtant pertinents qui n'apparaissent pas. Par exemple, les documents nommés IFRS (à juste titre - c'est la nouvelle appellation) lorsque l'on interroge IAS (l'ancienne appellation de la nouvelle norme comptable européenne - encore la plus utilisée). Lorsque l'on obtient dix documents, on est parfois loin de se douter qu'il y en avait en réalité 20, dont 2 principaux qui ne sont pas apparus.

Un impératif : pour retrouver, il faut ranger

Le perfectionnement et la multiplication des moteurs de recherche ont pu laisser penser que ce type d'outil pouvait tout retrouver. C'est tout le contraire.
L'apparente facilité d'accès d'une masse documentaire en constante augmentation, a pu parfois faire oublier les sains réflexes de l'organisation. On ne retrouve bien que ce que l'on range bien.
Les documents bien rangés doivent être autant que possible :

  • normalisés,
  • indexés,
  • classifiés,
  • commentés.

Normalisation

La normalisation consiste à définir des règles de structuration des documents (par ex. "Titre", "Sous-Titre", "Auteur"...) et des règles de rédaction (par exemple "ne pas abréger les types de voie dans une adresse", ou "Abréger Monsieur : M.").
Les outils existants peuvent être :

  • pour la structuration, une DTD (Description de Type de Document) et des documents au format XML,
  • pour la normalisation, la rédaction d'une charte de rédaction,
  • le recours à des listes déjà établies (codes NAF, codes postaux....)

Classification

Classifier n'est pas classer. Classifier c'est déterminer un certain nombre de classes dans laquelle on viendra ranger les documents dont le caractère est commun.
Il n'existe pas de système de classification qui soit totalement logique et tout à fait pratique. On se contentera d'un système dont la logique s'impose à tous sans trop de difficultés, aussi bien lors du rangement, que lors de l'accès.
Après le rangement des documents, chaque classe devra être suffisamment fréquentée pour répondre à une question, sans constituer un fourre-tout inexploitable.
Certaines classifications s'imposent facilement (codifications INSEE...), d'autres doivent être établies suivant une logique propre aux sujets traités. On peut alors se tourner vers l'emploi de thesaurus.

Recherche dans un index

Lorsque le critère de recherche tient en un seul mot ou que le premier mot d'une phrase est le plus déterminant, il est facile de constituer un index trié par ordre alphabétique (voire numérique). C'est le cas, par exemple, pour les villes ou les personnes.
Lorsque le mot important n'est pas le premier, il est alors possible d'organiser une liste de type KWAC (Key Word And Context) ou KWIC (Key Word In Context), qui met en évidence les mots significatifs (c'est le cas pour l'index alphabétique des livres du GUIDE-INFORMATIQUE.com).
Typiquement, le livre "Conception des systèmes d'exploitation" se trouve aussi à "Systèmes d'exploitation - Conception des systèmes d'exploitation" et à "OS - Conception des systèmes d'exploitation".
La recherche dans un index trouve vite sa limite lorsque cette organisation ne peut pas être utilisée, soit, parce qu'il s'agit de phrases longues dont beaucoup de mots sont significatifs, soit parce qu'il n'est pas possible d'effectuer le traitement préalable d'extraction des termes importants (c'est le cas des pages web dans un outil comme Google).

Recherche dans le texte, dictionnaire inverse

Deux méthodes sont employées pour rechercher un terme dans un texte :

  • balayage : il suffit de rechercher la chaîne de caractères en balayant un texte du début à la fin. Des algorithmes sophistiqués permettent d'accélérer considérablement ce traitement (par exemple dans un fichier Word ou un PDF). Cette technique n'est efficace que lorsque le texte se trouve en bonne partie en mémoire, c'est évidemment impossible lorsqu'il s'agit d'explorer des milliers de documents.
  • dictionnaire inversé : un traitement d'indexation systématique préalable permet de constituer un dictionnaire de tous les mots présents dans les documents avec un pointeur sur leur position dans chaque texte.
    On imagine que cet index un peu spécial va vite devenir monstrueux à mesure que l'on indexe les documents. Il n'en est rien. Le nombre de mots réellement employés dans une langue n'excède pas quelques milliers et le fichier s'accroît de moins en moins vite à mesure que l'on traite les nouveaux documents.
    Avec un dictionnaire inversé, les temps d'accès deviennent presque indépendants de la taille du fonds documentaire.

 
 
Recherche         
fermer