L'indexation automatique ou assistée par ordinateur



|
Introduction générale | Documentation | Logiciels | Technologies | Associations | Forums de discussion |


I. Introduction générale

a. Mise en contexte

La généralisation de l'utilisation de moyens informatiques dans un nombre toujours croissant de secteurs de l'activité humaine a aujourd'hui pour conséquence la production d'un volume considérable de documents sous forme électronique et donc la nécessité d'automatiser toutes les opérations de traitement de ces documents: indexation, classification, repérage...

La compréhension de l'opération documentaire qu'on appelle indexation dépend de notre perception de ce qu'est un index et ce qu'est un mot-clé.
Un index peut être défini comme étant une carte routière de l'information contenue dans un document qui peut être un livre, un article de journal, un site Web, un manuel technique, un catalogue, une base de données, une image graphique..., c'est un guide vers les concepts du document, conçu du point de vue de l'utilisateur. En plus des termes employés par l'auteur, un bon index inclut des termes et renvois additionnels que l'utilisateur peut chercher. Pour plus d'information sur ce qu'est un index et ce qu'est une bonne indexation, on pourra se reporter à la liste de contrôle d'évaluation d'indexation de l'ASI (American Society of Indexers): Indexing Evaluation Checklist.
Un mot-clé est un terme qui reflète parfaitement le contenu d'un document ou distingue ce document par rapport aux autres documents de la collection de sorte qu'il facilite le repérage de l'information dans ce document ou le repérage de ce document dans la collection.

"L'opération d'indexation comporte deux étapes: la première consiste à extraire le "contenu" d'un document; la seconde à le représenter par une série de mots-clés qui serviront de portes d'accès lors d'un repérage subséquent. Les mots-clés choisis peuvent être en vocabulaire libre, c'est-à-dire extraits du texte ou déterminés au gré de l'indexeur, ou encore en vocabulaire contrôlé, c'est-à-dire tirés d'un ensemble prédéterminé de termes admissibles. Dans ce dernier cas, les termes peuvent être précoordonnés (on parlera de vedettes-matière tirées d'un répertoire) ou postcoordonnés (il s'agira alors de descripteurs tirés d'un thésaurus). Dans tous les cas, l'indexeur est à la recherche des thèmes ou des concepts qui seront jugés importants par les utilisateurs potentiels du système documentaire et c'est cette étape qui est la moins étudiée". (Suzanne Bertrand-Gastaldy dans Les produits et processus cognitifs de l'indexation humaine)

Il existe différents types d'indexation selon qu'elle est faite par l'humain ou par la machine, qu'elle est effectuée sur une portion du document (sélective) ou en texte intégral (non sélective), que c'est une indexation par extraction (de tous les mots jugés importants) ou par assignation (des termes d'indexation qui représentent bien les concepts identifiés par l'indexeur).
Ce travail traite surtout de l'indexation automatique par assignation, car on sait que l'extraction est un domaine dans lequel la machine est plus performante que l'humain. L'intérêt est dirigé plus particulièrement vers ces opérations intellectuelles nécessaires au traitement du document à indexer afin d'en extraire les concepts jugés importants pour l'identification et le repérage de l'information pertinente pour l'usager.
Sachant que la nature de ces opérations intellectuelles n'est pas encore assez explorée par les chercheurs et les concepteurs des "machines à indexation", peut-on présumer qu'il est possible pour ces machines de s'occuper de toutes les étapes de l'opération d'indexation sans aucune intervention humaine? Autrement dit, est-il possible de remplacer l'indexeur humain par un ordinateur et l'indexation humaine par une indexation entièrement automatique dont le résultat est autre qu'une simple liste de mots?

Bien que les citations ci-dessous répondent en partie à cette question, nous essayerons d'explorer ce point plus en profondeur en fournissant une documentation qui porte sur ce thème et en présentant quelques logiciels et technologies d'indexation automatique ou assistée par ordinateur.

"...the human faculty of understanding, the grasping of meaning and context, is a process that depends on "knowledge of the world" (a vast microcosm of experiences, memories, relations and intuitions) and whose workings are essentially still an enigma. It can therefore neither be successfully performed nor even approximated by machines, fraudulent claims to the contrary by artificial intelligence enthusiasts notwithstanding. If the meager and often miserable results of fully automatic indexing would not speak for themselves, research into the linguistic aspects of human communication as well as into the theoretical capabilities and limitations of machines has convincingly shown that the quest for fully automatic indexing is a futile endeavor." (Hans H. Wellisch dans The art of indexing and some fallacies of its automation, Logos, Volume 3, No 2, 1992)

"The deficiencies, faults, and dangers of embedded indexing modules which are hawked by highly deceptive if not outright fraudulent slogans such as "with just a click of the mouse, you create back-of-the-book indexes!" ... These devices cannot produce an index, that is, a key to concepts dealt within a text, and their relationships to other concepts in that text. They are designed by people whose idea of an index is an alphabetical list of words extracted from a text plus their locators."
(Hans Wellisch dans Indexing from A-Z, (Second Edition, 1996))

"…There have been a number of attempts to automate indexing, and there is no doubt that indexes have improved greatly over the last fifty years. However, indexing cannot be mechanized and its largely anonymous practitioners need much flair and intuition to accompany the automated approach..." (Michael Gorman dans Our Singular Strengths: Meditations for Librarians, (American Library Association, 1998))


b. Histoire de l'indexation automatique

L'indexation est une pratique ancienne indispensable pour qui veut retrouver rapidement les documents voulus. Jusqu'à une époque récente, l'indexation semblait réservée à l'intelligence humaine surtout parce qu'elle nécessite des opérations mentales complexes (identification et analyse des concepts, établissement des relations sémantiques entre ces concepts...). Bien que ces opérations mentales restent encore exclusives à l'humain, on ne cesse de parler de systèmes capables de gérer toutes les opérations d'indexation sans la moindre intervention humaine.

Les premières recherches en indexation automatique se sont développées dans les années 60, en particulier avec les travaux de H.P. Luhn; à partir des méthodes KWIC qu’il avait élaborées, il proposa les principes d’une indexation automatique sur un modèle statistique capable d’extraire les mots-clés. Dans son article de 1958, il posa les bases des méthodes de calcul de la fréquence et de la cooccurrence. Grâce aux progrès réalisés en informatique, la décennie 1970-80 vit se développer de nombreux systèmes, la plupart utilisant un langage documentaire, certains intégrant quelques connaissances syntaxiques (cf. Chaumier 1990) : SATIN (Bourrely 1975 ), SYNTAXEME (Solet 1974), PIAF-DOC (Eimer 1981), SINTEX (Olivry 1981), PASSAT (Hoffman 1971)... La multiplication des programmes de recherche en langage naturel pendant les années 80 a permis le développement des analyseurs morphologiques et syntaxiques et leur intégration à des programmes d’indexation. Enfin, les années 90 sont marquées par l’arrivée de techniques mises au point en intelligence artificielle, comme les systèmes experts et leurs bases de connaissances. Plusieurs logiciels et systèmes basés sur des analyses morphosyntaxiques combinées à l'analyse statistique ont été développés ( SPIRIT, SATO, NATUREL...). Les recherches actuelles sont dirigées surtout vers la possibilité d’une véritable représentation du sens des textes.

Cet engouement pour l'automatisation de l'indexation est dû à plusieurs facteurs. D'une part, les contraintes et les insuffisances inhérentes à l'indexation humaine qui s'avère être coûteuse (au niveau du budget, du temps consacré et du nombre de personnes impliquées) et dépendente de la subjectivité de l'indexeur (un même document n’est pas indexé de la même manière par deux personnes ou par une même personne à deux moments différents); à ce niveau, l'indexation automatique se distingue par des coûts de traitement beaucoup plus bas et un niveau d'objectivité beaucoup plus élevé. D'autre part, l’informatisation croissante des services et la multiplication des sources d’information textuelles numérisées; en effet, ceci n'a fait que renforcer l'intérêt pour l’automatisation de l’indexation dans tous les secteurs d’activité, privés ou publics, industriels ou académiques.


c. Quel avenir pour l'indexation automatique?

Il serait peut-être intéresant, voir amusant, de savoir que les pionniers de la recherche en indexation automatique étaient plus optimistes et croyaient beaucoup plus en les capacités de la machine que les chercheurs actuels. Bien que les ordinateurs d'aujourd'hui soient des milliers de fois plus performants que ceux des années 70-90 et les méthodes utilisées beaucoup plus élaborées, les chercheurs admettent de plus en plus que l'automatisation de l'indexation est plus compliquée que ce qu'on croyait. Les raisons principales de cet état de conscience c'est que d'une part, on sous-estime de moins en moins la grande capacité du cerveau humain (que la machine ne peut jamais égaler) et la complexité du processus cognitif mis en oeuve lors du traitement de la langue, même de la façon la plus rudimentaire; d'autre part, notre vision de l'indexation a changé. L'indexation du document est maintenant conçue comme faisant partie du système d'information dont le but ultime est le repérage de l'information pertinente. Dans ce cas, l'utilisateur est considéré comme étant le centre d'intérêt de toute l'opération d'indexation. C'est pour cela qu'on a de plus en plus tendance à lier le développement des outils d'indexation à celui des outils de recherche et de repérage de l'information.

"I would argue that what really makes indexing and search retrieval difficult to automate are two things that human indexers do and machines do not. One is to consider the audience for a document, whether book or Web page. The other is to keep a mind map or “syndetic structure” in mind as a document is indexed."(Nancy K. Humphreys dans Mind Maps: Hot New Tools Proposed for Cyberspace Librarians )

"One of the things computers have not done for an organization is to be able to store random associations between disparate things, although this is something the brain has always done relatively well." (Tim Berners-Lee)


Même si la grande complexité de l'indexation est un fait qu'on ne peut plus nier, plusieurs chercheurs pensent qu'on peut aller beaucoup plus loin dans la qualité de l'indexation automatique en exploitant ingénieusement certaines propriétés du langage et surtout en explorant (le plus possible) le cerveau humain afin de comprendre ce processus cognitif mis en marche lors de l'utilisation et de l'analyse de la langue: pour permettre à la machine de réfléchir comme l'humain, il faut d'abord que l'humain comprenne comment il arrive à réfléchir. D'autres chercheurs voient l'avenir dans ces langages de balisage tels le XML (eXtensible Markup Language). Pour cela, je me contenterais d'une citation de Bill Gates (dans Comdex 2000 Keynote Speech, Las Vegas) qui peut être traduite comme suit:

"S’il y a bien une chose que je considère comme essentielle au cours de l’année écoulée, c’est l’émergence de XML. Je vais parler beaucoup ce soir des raisons pour lesquelles je pense que Microsoft et l’industrie toute entière devraient réellement miser leur futur autour de XML. Les standards liés à XML sont la clé de là où nous devons aller."

Ce message ne contiendrait-il pas une vérité qui concerne les adeptes de l'indexation automatique?
Pour plus d'information sur l'exploitation de XML dans l'indexation et le repérage de l'information, voir le travail de Nancy K. Humphreys: Mind Maps: Hot New Tools Proposed for Cyberspace Librarians.

Quant aux systèmes d'aide à l'indexation, plusieurs ont déjà fait leur preuve : contrôle des opérations d'édition et de vérification (des renvois, doublons, erreurs, etc.) et donc une meilleur qualité dans de meilleurs délais. Ces logiciels sont devenus des outils dont l'indexeur humain ne peut plus se passer.


II. Aspects spécifiques

Quoique l'on raconte, on n'arrivera jamais à visiter tous les recoins de ce vaste thème qu'est l'indexation (automatique ou assistée par ordinateur).
Pour parvenir à explorer la question plus pronfondément, nous proposons la liste de liens suivante qui est constituée de trois aspects liés à l'indexation : nous commençons par une contextualisation de la thématique en fournissant une documentation qui porte sur l'indexation automatique ou assistée par ordinateur. Ensuite, nous présentons quelques systèmes et technologies d'indexation (semi-automatique et automatique) pour finir avec la liste des associations d'indexeurs et de quelques forums de discussion.



III. Limites

Les recherches effectuées pour élaborer ce travail nous ont confirmé que l’évaluation des systèmes d’indexation automatique est difficile à mettre en place, car le manque d’homogéneïsation de ces systèmes ne permet pas de concevoir une évaluation unique. Ceci dit, il n'est pas évident de confirmer ou de refuter l'utilité ou l'efficacité des outils d'indexation automatique. La variété des méthodes et technologies utilisées, bien que reflétant une certaine rigueur dans le travail des chercheurs et spécialistes de l'indexation et une envie continue de trouver la meilleure solution, reste en elle-même un obstacle et une entrave à toute tentative d'évaluation de ces systèmes. Ceci est tout à fait vrai dans le sens où chaque méthode a des points forts et des points faibles, ce qui est apparent dans tous les produits (logiciels ou systèmes d'indexation) disponibles jusqu'à présent.
Le cas étant ainsi, ne serait-il pas temps de penser à un système qui combine les avantages de ces différentes méthodes tout en évitant, le plus possible, leurs inconvénients au lieu de continuer à courir derrière la solution magique? (une solution qui, du jour au lendemain, permettra à la machine de tout faire !)

L'autre difficulté rencontrée réside dans le fait que le thème étudié est très vaste et parfois même ambigü. Nous n'avons pas eu de problèmes à trouver une documentation intéressante qui traite de l'indexation en général, mais ceci n'était pas le cas lorsque nous cherchions des documents spécialisés en indexation automatique. Parfois, l'indexation automatique est confondue avec l'indexation semi-automatique (assistée), c'est ce que nous avons remarqué dans quelques articles et sites Web au titre trompeur. Ceci est peut-être dû au fait qu'en vérité des outils d'indexation purement automatique n'existent pas encore.
Ceci dit, il nous paraît utile de distinguer quatre types d'indexation: l'indexation (entièrement) humaine, l'indexation humaine assistée par ordinateur, l'indexation (entièrement) automatique et une indexation automatique assistée par l'humain. Dans le cas de ce dernier type, la machine fait tout le travail d'indexation (donc, c'est automatique) mais à condition que l'humain intervienne, soit au début pour préparer les textes (corpus) à traiter, soit à la fin pour corriger les imperfections de la machine. Cette intervention subséquente de l'humain est nécessaire quel que soit le degré de performance du logiciel d'indexation en question parce que, jusqu'à présent, seul l'humain est doté des capacités intellectuelles et de jugement nécessaires pour faire face aux diverses difficultés rencontrées dans les différents contextes du traitement documentaire.



Haut de la page
Page précédente - | -Page suivante


| Introduction générale | Documentation | Logiciels | Technologies | Associations | Forums de discussion |

Copyright © Elmqaddem Noureddine, 2002.
Travail de recherche - Analyse de textes et ordinateur