ELOoffice BLOG

Einige Gründe für erfolglose Suche im Volltext

Bei einer Volltextsuche kommt es immer mal wieder vor, daß man ein Dokument nicht findet, welches im Archiv vorhanden sein sollte. Das kann verschiedene Gründe haben:

1. Das Dokument liegt in einem Format vor, welches der Volltextdatenbank nicht bekannt ist: Hierbei kann es sich zum Beispiel um spezielle CAD Formate oder alte Textverarbeitungsformate (z.B. Word 2.0) handeln.

2. Das Dokument liegt in einem bekannten Format vor, ist aber ungewöhnlich aufgebaut: Dieses Problem tritt besonders oft bei PDF-Dateien auf. Manche Scanner erzeugen optional PDF-Dokumente, das sind aber keine echten PDFs mit Textinhalt. Statt dessen enthalten diese nur große Grafiken mit den Scanbitmaps. Zudem kennt das PDF-Format keinen echten Fließtext und besitzt keine Informationen über den Textzusammenhang. Wenn das erzeugende Programm hier einen ungünstigen Output erzeugt (z.B. um eine maximale Kontrolle über die Formatierung zu erhalten oder weil ungewöhnliche Schmuckschriften eingesetzt werden), dann kann es passieren, daß die Texte in Einzelbuchstaben zerfallen und deshalb nicht für den Volltext auswertbar sind. Auch bei E-Mail Dokumenten kann ein ungewöhnliches Format des Textkörpers oder der Attachments dafür sorgen, daß die EMail nicht oder nur unvollständig in den Volltextindex aufgenommen werden kann.

3. Fehler bei der OCR Analyse: Moderne OCR-Programme sind recht zurverlässig und weisen eine gute Erkennungsrate auf. Trotzdem kann es vorkommen, dass einzelne Zeichen nicht korrekt erkannt werden (z.B. weil Schmutzpixel das Bild verfälschen, Buchstaben zusammenlaufen oder der Text nicht vom Hintergrund getrennt werden konnte). Auch kommt es mitunter vor, daß Zwischenräume nicht richtig erfaßt werden und somit entweder Wörter auseinandergerissen werden oder auch unabhängige Wörter zusammenfließen.

Aufgrund dieser Probleme kann eine Volltextsuche niemals eine 100% Trefferquote garantieren. Wenn Sie Dokumente haben, welche unerwarteterweise nicht im Volltext auftauchen, dann können Sie über die Kontrolle der Volltextinformation (Kontextmenü der Such- und Archivansicht) nachprüfen, was zu diesem Dokument erkannt wurde. Wenn der Fall dann immer noch unklar bleibt, dann können Sie uns das Dokument zur Überprüfung zusenden.
—–

Datum: 19. Januar 2007
Kategorien: Ältere Versionen
Schlagwörter: