Arbeiten mit dem Document Identifier
Übersicht
Der Document Identifier in Document Central dient der eindeutigen Identifikation von Dokumenten und der Vermeidung von Duplikaten. Er wird automatisch beim Upload eines Dokuments erstellt und basiert auf einem SHA-512 Hash-Wert des Base64-kodierten Dokuments. Durch diesen Mechanismus kann effizient festgestellt werden, ob ein Dokument bereits im System existiert.
Generierung des Document Identifiers
Beim Hochladen eines Dokuments wird dessen Inhalt in einen Base64-String umgewandelt und mittels des SHA-512 Hash-Verfahrens in einen einzigartigen Identifier konvertiert. Dieser Identifier wird in der Document Entry-Tabelle gespeichert und ermöglicht folgende Funktionen:
- Sicherstellen, dass jedes Dokument eindeutig identifizierbar ist.
- Erkennung und Vermeidung von doppelten Dokumenten.
- Verbesserung der Such- und Abrufleistung durch die Möglichkeit, Dokumente anhand ihres Inhalts zu identifizieren.
Nutzung des Document Identifiers
Vermeidung von Duplikaten
Beim Hochladen eines neuen Dokuments wird geprüft, ob der generierte Document Identifier bereits in der Document Entry-Tabelle existiert. Falls ja, erhält der Benutzer eine Liste aller Datensätze, in denen das Dokument bereits vorhanden ist, und kann anschließend entscheiden, ob er das Dokument dennoch hochladen möchte oder nicht.
Anzeige in der Dokumentenübersicht
Der Document Identifier kann in den Document Overviews angezeigt werden. Eine spezielle Action ermöglicht es, den Hash-Wert eines Dokuments einzusehen und zu verifizieren.
Suche nach Dokumenten
In der Document Search kann gezielt nach Dokumenten anhand ihres Document Identifiers gesucht werden. Dafür muss die erweiterte Ansicht geöffnet werden, mithilfe der dann genau auf diesen gefiltert werden kann. Dies erleichtert das schnelle Auffinden von Dokumenten basierend auf ihrem Inhalt, selbst wenn Metadaten oder Dateinamen variieren.
Vorteile
- Erhöhte Datenintegrität: Sicherstellung der Eindeutigkeit jedes Dokuments.
- Optimierte Speichernutzung: Vermeidung unnötiger Duplikate reduziert den Speicherverbrauch.
- Effiziente Suchfunktionalität: Schnellere Dokumentenrecherche anhand des Hash-Werts.
- Bessere Compliance: Ermöglicht eine einheitliche Überprüfung der Authentizität und Einzigartigkeit von Dokumenten.
Mit der Implementierung des Document Identifiers bietet Document Central eine robuste Lösung zur Identifikation und Verwaltung von Dokumenten, die sowohl die Effizienz als auch die Datenqualität verbessert.
Einschränkungen
Der eindeutige Document Identifier funktioniert nicht richtig mit E-Mails und deren Anhängen. Wenn E-Mails direkt aus z.B. Outlook hochgeladen werden, unterscheidet sich die Metadatenstruktur bei jeder E-Mail, selbst wenn der Inhalt identisch ist. Zusätzlich variieren die Metadaten der Anhänge jedes Mal, wenn sie von Document Central extrahiert werden. Diese Unterschiede in den Metadaten führen zu einem anderen Hash-Wert des Dokuments.