# Structure de l'index

Lors de l'indexation d'un document depuis l'archive ELO, aussi bien les métadonnées que les contenus du plein texte provenant du document ainsi que les informations provenant des articles du fil d'actualité sont enregistrés dans l'index de iSearch.

Pendant l'indexation, les contenus du plein texte du fil d'actualité sont soumis à différentes analyses, selon la langue, et le résultat est enregistré dans l'index de Elasticsearch. Pour les métadonnées, les étapes d'analyse pour les champs de texte et les contenus sont enregistrés pour chaque champ sans être modifiés (par exemple en tant que mot-clé, date, etc.)

Cela permet d'effectuer des recherches très flexibles pour le scénario correspondant. Il est possible de rechercher en même temps dans le plein texte, les contenus du fil d'actualité et les métadonnées.

# Etapes de préparation de l'indexation

Les métadonnées d'un document provenant de l'archive ELO se trouvent dans la base de données SQL et sont accessibles directement pour le serveur d'indexation. Par contre, les informations plein texte doivent être extraites d'un document. Le module utilisé pour cette extraction est ELO Textreader (opens new window).

Textreader récupère le document correspondant sur le serveur d'indexation, il en extrait le contenu plein texte et le transmet au serveur d'indexation, qui l'enregistre dans l'archive ELO en tant que fichier distinct. Si nécessaire (par exemple, s'il s'agit de fichiers image), Textreader utilise un logiciel OCR pour extraire d'éventuelles textes.

# Processus d'indexation régulier

Le processus d'indexation est exécuté par le serveur d'indexation. Régulièrement (l'intervalle peut être configuré via la configuration de ELO iSearch), le serveur d'indexation vérifie quels documents ont été ajoutés, modifiés ou supprimés depuis la dernière indexation. Ceux-ci doivent être actualisé dans les index de iSearch.

Pour ce qui est des documents trouvés, le serveur d'indexation récupère les métadonnées ainsi que les informations du fil d'actualité dans la base de données SQL. Le contenu du plein texte (s'il y a un contenu) est récupéré par le serveur d'indexation dans l'archive, avec ELO Textreader. Les informations sont alors transmises à iSearch, donc à l'instance Elasticsearch en l'occurrence, qui indexe les contenus de champ. Les étapes d'analyses selon la langue mentionnées ci-dessus sont mises en place pour les champs de texte et le contenu plein texte.

Remarque

Réfléchissez bien quels documents doivent être enregistrés dans iSearch. Trop d'informations de texte ont un impact négatif sur la performance du moteur de recherche. Il peut donc être intéressant d'exclure certains types de documents (par exemples des livres entiers, des brochures etc.)

← Glossaire Introduction →