faScan: Segmentierung, Klassifizierung, Lesen und Weitergeben – die Extraktion als nächste Stufe

Kennenlernen und verstehen

In der Welt der Technologien und Künstlichen Intelligenz ist es oft wie im richtigen Leben – Information und Kommunikation sind entscheidend:

Was bist du? Wer bist du? Von wem kommst du?
Was genau willst du mir sagen? Wo willst du hin?

Menschliche Denkprozesse nachahmen: Nachdem faScan ganze Akten und Stapel erkennt und identifiziert, welche Dokumente zusammen gehören, ist das Erkennen und Auslesen des detaillierten Inhaltes natürlich folgerichtig der nächste Schritt. Genau wie im richtigen Leben.

Unterlagen, Bilder und Dateien sind in der Dokumentenerkennung große Unbekannte. Wie bekommt die intelligente Softwarelösung faScan Struktur in die Erkennungsabläufe? Die einfache Antwort: Imitation des Denkprozesses eines Menschen. Die komplexe Antwort: Durch die Kombination verschiedener visueller und maschineller Erkennungs- und Lernmethoden, die faScan befähigen, Dokumente, Bilder und Informationen wie ein Mensch zu interpretieren. Was heißt das genau?

Begegnet faScan Dokumenten, verfährt es unbefangen, nicht vordefiniert. Anstatt von vornerein zu sagen „Du bist ein Ausweis. Du bist eine Rechnung. Du bist eine Architekturzeichnung“, lernt faScan Dokumente kennen, indem es eingehende Dokumentenstapel aufgliedert (Segmentierung), die gewonnenen Informationen in verschiedenen Themenbereichen bündelt (Klassifizierung) und auf dieser Grundlage für Einzeldokumente eine differenzierte Zuordnung (Spezifizierung) vornimmt. „Das funktioniert im Grunde wie bei Menschen im Büro, die Post von unterschiedlichen Absendern erhalten, diese zuordnen, weiterverarbeiten, oder Inhalte in verschiedene Anwendungen abtippen“, erklärt Natalie Gude Losada, Geschäftsführerin von PRO-DIRECT-FINANCE, das Verfahren.

Grundlagen des Verstehens und Erkennens schaffen

Damit faScan Dokumente trennen und erkennen kann, muss es ein Dokument „lesen“ können. Konkret: faScan muss den Text und Anordnungen auf den Seiten erkennen. Typischer Weise handelt es sich bei diesen Seiten um eingescannte Dokumente, weswegen diese aus Rastergrafiken bestehen, in denen der Text nicht zur Verfügung steht.

Wie löst faScan z. B. dieses Problem? „Die Software nutzt eine ‚Optical Character Recognition‘ (OCR), um Grafiken in Text umzuwandeln“, so Gude Losada. An dieser Stelle setzt faScan aber auch KI (maschinelles Lernen, neuronale Netze) als Verfahren ein. Das Ergebnis enthält den erkannten Text, aber auch Informationen darüber, wo sich einzelne Worte befinden.

faScan verwendet eine ausgereifte OCR-Engine mit ausgezeichneter Qualität. OCR-Analysen sind allerdings zeit- und ressourcenintensiv. Der Nachteil dabei ist, dass die Analyse pro Seite mehr Zeit benötigt. Aber auch hier wird durch die gleichzeitige Analyse mehrerer Seiten entgegengewirkt.

faScan ist ebenso in der Lage, die verschiedensten Dateiformate zu unterstützen, wobei es für alle Formate gleich effektiv arbeitet:

• bmp
• csv
• doc
• docx
• dot (Mircosoft Word Vorlagen)
• eml (Microsoft E-Mail)
• eps (Encapsulated Postscript)
• gif
• jpg
• msg
• odp
• ods
• odt
• pdf
• png
• pot (PowerPoint Template)
• pps
• ppt
• pptx
• rtf
• svg
• tiff
• txt (Plain Text)
• xls
• xlsx

Usability auf hohem Niveau

Was für ein Fortschritt, wenn hier Zeit gespart werden kann, anstatt Dokumente und Bilddateien aufwendig in Antrags- und Anmeldeprozesse zu integrieren oder Zahlungsinformationen jeglicher Art mühevoll abzutippen. Wenn die Möglichkeit geboten wird, Dokumente und deren Inhalt bei Fehlern direkt auf einer komfortablen und intuitiv zugänglichen Oberfläche mit Abgleich zu korrigieren. An dieser Stelle hat faScan mit dem letzten Update noch einmal zugelegt: User bekommen eine grafisch ansprechend aufbereitete und sofort verständliche Auflistung der in Frage kommenden Dokumentenklassen, in der sie nun noch schneller der Klassenzuordnung zustimmen oder diese ändern können.

faScan arbeitet durch seine am menschlichen Verhalten ausgerichtete Methodik des Auslesens weit in die Tiefe und erkennt etwa, ob es sich bei einem Dokument z. B. um einen Grundbuchauszug des Einfamilienhauses XY handelt. Damit legt es den Grundstein für eine intuitive Einrichtung einer digitalen Akte.

Volle Integration in den Arbeitsalltag

Diese Thematik wird nun für den Arbeitsalltag noch weiter vertieft. Jeder Service der Software kann extra gebucht und verwendet werden, wobei die Übertragung von Informationen per API erfolgt und in den eigenen Datenhaushalt überführt werden kann.

Die Konsequenz: Ein hoher Service und ein großer Geschwindigkeitsvorteil in jedem Arbeitsprozess, bei dem Dokumente und Nachweise eine Rolle spielen. In der Lage zu sein, Dokumente, Bilder und Informationen wie ein Mensch auszulesen, bedeutet sowohl für den Arbeitsalltag als auch für Endkunden ein hohes Maß an Komfort und Bequemlichkeit.

Der Artikel ist auch in der neuesten Ausgabe des Banken-Magazins „Vorsprung“ erschienen. Lesen Sie hier mehr! 

Bildnachweise:
Getty Images / macroworld
Getty Images / ConstantinCornel