Technologies et systèmes d'indexation
automatique ou semi-automatique



| Introduction générale | Documentation | Logiciels | Technologies | Associations | Forums de discussion |


Présentation

Aujourd’hui, l’arrivée d’Internet, la multiplication des bases et banques de données en texte intégral et l'expansion de la numérisation des documents dans divers secteurs d'activité, publiques et privés, ont poussé certaines entreprises à investir dans des systèmes d’information automatisés : indexation des courriers, développement de l’intranet, bases de données en langage naturel pour le grand public, etc.
Après une époque centrée sur les méthodes d’organisation des connaissances, nous sommes rentrés dans celle de la recherche d’information pertinente. Le développement d’outils capables d’indexer correctement et de trouver une information utile est devenu une nécessité.
Dans ce qui suit, nous présentons quelques technologies et logiciels d'indexation automatique ou semi-automatique.


Liste commentée de quelques technologies et logiciels


Technologies Nstein

Nstein développe des solutions technologiques d'indexation assistée par ordinateur pour le marché de l'édition électronique. Dans le cadre des recherches en linguistique informatique, Nstein se distingue par sa nouvelle technologie d'analyse de textes: La technologie ADNL.
L'ADNL de Nstein est une technologie qui combine l'analyse linguistique et statistique ainsi que l'intelligence artificielle. Elle est basée sur le principe que chaque texte possède des caractéristiques spécifiques qui le distinguent des autres. Elle repose sur des concepts et leurs relations plutôt que sur la reconnaissance de simples mots-clés.
Grâce à cette technologie, Nstein propose des logiciels d'indexation performants tels le nserver e-publisher suite et le nconcept extractor.Ce sont des systèmes d'aide à l'indexation qui permettent de:



Technologies GID

Technologies-GID propose le Système d'Accès à l'information en langage naturel SPIRIT (Système Syntaxique et Probabiliste d’Interrogation et de Recherche de l’Information Textuelle). SPIRIT et MICRO-MIND, développé par la suite par la même société, représentent un système de documentation automatique dont toutes les procédures (de l’indexation à l’interrogation) sont entièrement automatisées, l’interrogation se fait en langage naturel. SPIRIT est adapté à des environnements hétérogènes et à des typologies de clients différentes (grands comptes, moyennes entreprises, institutions ou organismes publics, centres de documentation, laboratoires …). Il a connu un grand succès et a été adopté par de nombreux organismes importants (CEA, EDF-GDF, AUPELF, etc.). SPIRIT est composé de quatre modules :

"En plus de cette méthode mixte (analyse linguistique et statistique), SPIRIT intègre des dictionnaires généraux (français, anglais, allemand), pour l’interrogation des BDD multilingues.
Système de haute technologie, SPIRIT offre la possibilité à chaque utilisateur d'accéder facilement à l'information recherchée, sur un Intranet ou en environnement web. Naturellement, seule l'information pertinente compte ! Et c'est là que SPIRIT fait la différence. Il va au-delà de la simple recherche par mot-clé ou de la logique booléenne (et, ou, sauf), grâce à son analyse linguistique. Il suffit donc de poser une question en langage usuel et le tour est joué."

Pour plus d'information à propos de SPIRIT, voir: SPIRIT-W3: A Distributed Cross-Lingual Indexing and Search Engine



Technologies Delphes

Afin de dépasser les capacités des moteurs de recherche dits booléens, certains éditeurs (tels que Albert et LexiQuest) proposent l'ajout d'une couche logicielle assurant la traduction des requêtes. D'autres optent plutôt pour des systèmes d'analyse linguistique différents tendant à cerner le contexte d'une demande. Entrant précisément dans cette seconde catégorie avec ses solutions basées sur l'analyse morpho-syntaxique, Delphes Technologies International a choisi de se limiter au champ d'application du Web.
Prenant en compte les pages Web aussi bien statiques que dynamiques ainsi que les fichiers au format PDF, le moteur de recherche de Delphes (DioWeb) s'adosse principalement à des méthodes d'analyse morpho-syntaxique couvrant le français l'anglais et l'espagnol. "Brillant par sa robustesse et sa stabilité, ce système a été conçu pour traiter de gros volumes de documents. L’indexation incrémentielle assure un gain de temps et d’efficacité pour la mise à jour des index. Plusieurs tâches d’indexation peuvent être exécutées simultanément. Outre le corps du texte, l’indexation couvre les annotations, les balises Méta, les notes, les signets et les titres." DioWeb se caractérise aussi par sa flexibilité et fiabilité: les tâches d’indexation s’exécutent automatiquement ou sur demande, localement ou à distance.
"A un premier niveau, l'étude morphologique assure la reconnaissance des termes en fonction de leur racine", détaille Richard Turgeon, directeur marketing chez Delphes. Ici, le concept "investissement" sera typiquement associé à "investir" ou encore "investisseur". A un second niveau, le moteur applique des analyseurs grammaticaux et syntaxiques pour repérer les suites de mots formant des expressions ou des phrases (tel que sujet/verbe/complément). "Nous travaillons actuellement à l'ajout d'une composante sémantique à cet ensemble", confie t-on chez l'éditeur. "Une évolution qui contribuera à intégrer l'identification des synonymes et des termes connexes."



Technologies ITESOFT

Créé en 1984, ITESOFT est un éditeur français de solutions d'automatisation du traitement des flux d'informations, implanté en Allemagne (Hambourg), au Royaume-Uni (HRH Business Technology Ltd - Farnham) et en France (Paris et Aimargues, siège social). Grâce à un savoir-faire unique dans les technologies de reconnaissance de formes et de caractères, ITESOFT est aujourd’hui leader sur le marché français de la capture et du traitement de documents et se positionne au 3ème rang sur le plan européen. CA 2001 proforma Groupe : 14,1 M€ - Effectif 2001 Groupe : 130 personnes.

ITESOFT.FreeMind est une nouvelle génération de logiciels de capture, traitement et gestion automatiques de documents. Ce logiciel est doté de fonctions intéressantes pour traiter automatiquement tous les documents d'une compagnie: lettres, formes (ordres d'achat, glissades, etc.), factures, paiements (chèques, ébauches, etc.). Il les capture, les identifie (ADI), les indexe et les reconnait automatiquement (ADR); ensuite, il les stocke pour qu'ils soient ainsi accessibles dans un format électronique.
"FormId est le point d'entrée de tous les systèmes de GED et de Workflow. Une fois le document identifié, FormId recherche les zones d'indexation présentes sur le document et les reconnaît soit en lecture de codes à barres soit en lecture OCR. FormId peut utiliser n'importe quelle zone présente sur le document comme critère d'indexation. FormId sait reporter automatiquement les index trouvés sur un document, sur tous les documents appartenant à un même pli (contenu d'une enveloppe)."



SATO

"Le logiciel SATO développé au Centre d'Analyse de Texte par Ordinateur de l'UQAM par François Daoust, outil informatique amplement utilisé dans la recherche en sciences humaines, est en cours d'adaptation à la norme XML et de transformation pour ce qui est de son architecture générale, de ses fonctionnalités d'analyse, de son interface graphique, et de sa structure de commandes. Outre la norme XML, mentionnons les modifications majeures:
1) Conception entièrement modulaire de sa structure générale accompagnée de l'incorporation d'un ensemble de nouveaux analyseurs lexico-statistiques;
2) Intégration du logiciel NOMINO, ce qui accroîtra sa performance générale tout en permettant aussi l'incorporation de nouvelles capacités sur le plan de la catégorisation sémantique (automatique) de textes;
3) Interface graphique entièrement renouvelée;
4) Capacités générales de stockage accrues;
5) Version LINUX du logiciel."

(LABONIA Daniel (LFA, Ottawa, et Centre ATO, Montréal), dans: Le nouveau SATO: un horizon neuf pour l'indexation des textes.


Pour d'amples informations à propos de SATO: Présentation du logiciel
Voir aussi la section "outils et méthodes"


Haut de la page
Page précédente - | -Page suivante

| Introduction générale | Documentation | Logiciels | Technologies | Associations | Forums de discussion |

Copyright © Elmqaddem Noureddine, 2002.
Travail de recherche - Analyse de textes et ordinateur.