# Indexaufbau

Beim Indizieren eines Dokuments aus dem ELO Repository werden sowohl die Metadaten, als auch Volltextinhalte aus dem Dokument sowie Informationen aus Feed-Beiträgen in den Index der iSearch aufgenommen.

Dabei werden während des Indiziervorgangs Volltext- und Feed-Inhalte sprachabhängigen Analyseschritten unterworfen und das Ergebnis im jeweiligen Index der Elasticsearch gespeichert. Bei den Metadaten werden sowohl Analyseschritte bei Textfeldern durchgeführt als auch für jedes Feld die Inhalte unverändert (z. B. als Keyword, Datum usw.) gespeichert.

Dies erlaubt später, sehr flexibel für den jeweiligen Anwendungsfall nach den gewünschten Informationen zu suchen. Dabei kann gleichzeitig in Volltext- und Feed-Inhalten und Metadaten gesucht werden.

# Vorbereitende Schritte zur Indizierung

Die Metadaten eines Dokuments aus dem ELO Repository liegen in der SQL-Datenbank vor und sind für den Indexserver sofort zugreifbar. Die Volltextinformationen dagegen müssen aus einem Dokument erst extrahiert werden. Dafür ist der ELO Textreader (opens new window) als eigenständiges Modul zuständig.

Der Textreader holt das jeweilige Dokument vom Indexserver, extrahiert daraus den Volltextinhalt und übergibt diesen wieder an den Indexserver, der ihn im ELO Repository als jeweils eigene Datei abspeichert. Der Textreader greift dabei, wenn nötig (z. B. bei Bilddateien) auf OCR-Software zurück, um daraus textuelle Inhalte zu extrahieren.

# Regelmäßiger Indizierungsprozess

Der Indizierungsprozess wird durch den Indexserver durchgeführt. In regelmäßigem Zeitabstand (Updater-Intervall konfigurierbar über die ELO iSearch Configuration) prüft der Indexserver, welche Dokumente seit der letzten Indizierung hinzugekommen, geändert oder gelöscht worden sind. Diese müssen in den Indexen der iSearch aktualisiert werden.

Für die ermittelten Dokumente holt der Indexserver die Metadaten sowie Feed-Informationen aus der SQL-Datenbank. Den Inhalt des Volltextes (sofern vorhanden) holt der Indexserver aus dem Repository über den ELO Textreader. Die Informationen werden dann in aufbereiteter Form an die iSearch, d. h. an die Elasticsearch-Instanz übergeben, die dann die Feldinhalte indiziert. Dabei kommen die oben erwähnten sprachabhängigen Analyseschritte bei Textfeldern und Volltextinhalt zum Einsatz.

Beachten Sie

Wägen Sie gut ab, welche Dokumente in die iSearch aufgenommen werden sollen. Zu viele Textinformationen wirken sich negativ auf die Leistung der Such-Engine aus. Es kann deshalb sinnvoll sein, bestimmte Arten von Dokumenten auszuschließen (z. B. vollständige Bücher, Broschüren oder ähnliches).

Zuletzt aktualisiert: 21. Mai 2024 um 09:53