Automatisierte Datenerfassung: Instrumente, Methoden und derzeitige Effektivität

Automatisierte Datenerfassung: Instrumente, Methoden und derzeitige Effektivität

June 23, 2021

Martin Anderson

Unabhängiger KI-Experte

Im Jahr 2019 schätzt Datamation, dass unstrukturierte Daten jährlich um 55-65 % wachsen und dass 80 % aller Unternehmensdaten in die Kategorie "unstrukturiert" fallen. In diesen wachsenden Unternehmensdatenseen sind Muster und Trends verborgen, die Einblicke und nutzbare Geschäftsvorteile bieten - wenn ein Weg gefunden wird, diese Daten zu sichten, zu quantifizieren und zu analysieren.

Selbst Unternehmen, die nicht davon überzeugt sind, dass solche Untersuchungen gewinnbringend wären, sind oft gezwungen, diese großen Datenmengen zu pflegen und zumindest minimal zu kuratieren, da einige oder alle der darin enthaltenen Informationen unter die Aufsicht der Behörden fallen und schließlich benötigt werden könnten, um die Einhaltung der Vorschriften zu beweisen - oder um Rechtsstreitigkeiten zu widerlegen, neben anderen möglichen auslösenden Faktoren.

Es macht also wenig Sinn, die Aufgabe aufzuschieben, den scheinbar "undurchsichtigen" Datenberg zu entwirren, den Ihr Unternehmen möglicherweise aufbewahrt, da Sie möglicherweise genau herausfinden müssen, was darin enthalten ist, und sei es nur, um festzustellen, ob es legal (oder ratsam) ist, es zu löschen.

Ein positiver Aspekt ist, dass derselbe Prozess der Untersuchung eine Gelegenheit bietet, Ordnung und Struktur in Ihre unstrukturierten Daten zu bringen; die ständig wachsenden Kosten für SaaS-Verträge zusammen mit der potenziellen Preisgabe privater Informationen an einen Drittanbieterdienst loszuwerden; Daten zu den eigenen Bedingungen des Unternehmens zu nutzen oder aufkommende Konzepte wie Data-Storytelling zu ermöglichen.

In diesem Artikel befassen wir uns mit einigen Arten von Daten, die durch automatisierte Datenerfassung gewonnen werden können. Wir zeigen auch die Vorteile der Nutzung von Beratungs- und Consulting-Services für maschinelles Lernen auf, um lokale Arbeitsabläufe zu etablieren, die Unternehmensdatenressourcen analysieren und nutzen.

Strukturierte und unstrukturierte Daten

Es gibt drei Arten von Daten, die ein Unternehmen wahrscheinlich aufbewahrt: strukturierte, unstrukturierte und halbstrukturierte Daten.

Strukturierte Daten liegen in einer Form vor, die bis zu einem gewissen Grad "vorindiziert" ist, wie zum Beispiel:

  • Geolokalisierungsdaten.
  • Tabellarische CSV-Arbeitsblätter mit finanziellen oder bekannten statistischen Datenpunkten, POS-Informationen oder anderen Datentypen. Jedes Programm, das die Daten lesen kann, kann in der Regel eine einige Art von Analyse damit durchführen, und die Daten können auch in leistungsfähigeren Analysesystemen, einschließlich Systemen für maschinelles Lernen, verwendet werden.
  • Legacy-Datenbankformate, die sich eins-zu-eins in ein neues Datenspeichersystem abbilden lassen.

Unstrukturierte Daten haben kein solches begleitendes Datenmodell. Sie können in einer Reihe von Formen auftreten:

  • Eine endgültige, gerasterte PDF-Datei, z. B. ein Vertrag, der von mehreren Parteien in einem E-Mail-Austausch unterzeichnet wurde, ist im Grunde nur ein undurchsichtiger Haufen Pixel in einem PDF-Wrapper.
  • Ungescannte Faxe, die ebenfalls keinen maschinell auswertbaren Inhalt haben.
  • Bilder in Standardformaten wie JPEG und PNG, mit minimalen oder keinen Metadaten.
  • Legacy-Kommunikationsformate, die aufgrund der technischen Verschuldung eines Unternehmens entstanden sind und für die es entweder nie ein brauchbares Datenmodell gab oder für die keine brauchbare Analyseplattform mehr verfügbar ist.
  • Aufzeichnungen von Call-Centern, die zur manuellen Überwachung und Einhaltung von Vorschriften aufbewahrt wurden, aber undurchsichtige und unstrukturierte Audiodaten darstellen.
  • Videoinhalte, einschließlich aufgezeichneter VoIP-Gespräche.

Semi-Strukturierte Daten haben ein Schema, aber nicht unbedingt ein Datenmodell. Daten dieses Typs können umfassen:

  • XML-formatierte Dokumente, die streng strukturiert, aber semantisch "bedeutungslos" sind.

E-Mail-Archive, die einem bestimmten Schema entsprechen und viele durchsuchbare Informationen enthalten (z.B. Absender, Datum und Absenderdaten), die aber an sich 'offen', undefiniert und unquantifiziert sind und sich eher für eine gezielte forensische Untersuchung als für eine beiläufige Datenexploration eignen.

Informationen aus PDFs extrahieren

Seitdem die zugrundeliegende PostScript-Sprache in den späten 1980er Jahren im Desktop-Publishing Fuß gefasst hat, hält sich das Portable Document Format (PDF) von Adobe hartnäckig an seinem geschätzten Platz in der Bürokratie - trotz seiner vielen Unzulänglichkeiten und der relativen Schwierigkeit, Inhalte zur Verwendung in Datensätzen und anderen moderneren Arten der Informationsspeicherung zu extrahieren.

PDF-Inhalte in einem Unternehmensdatenpool werden wahrscheinlich einer der folgenden drei Arten angehören:

  • Rasterisierte Bild-PDFs, darunter unterschriebene Verträge, gescannte Faxe und andere Arten von Inhalten. Es ist unwahrscheinlich, dass sie irgendwelche nützlichen Metadaten enthalten, außer Dateiberechtigungen, zumindest einen Standardbenutzernamen für den Ersteller und Erstellungsdaten. Text wird gerastert (in ein Bild umgewandelt).
  • Optimierte PDFs, bei denen die Textformatierung in Absätze und Spalten "eingebacken" wurde, um die Dateigröße zu verringern. Der Text ist real und nicht gerastert, aber die Wörter am Satzanfang und -ende werden "zusammengeklebt" (siehe Abbildung unten), was eine mühsame und oft teure manuelle Korrektur erfordert.
  • Natürlicher Text PDFs mit "fließendem" zugänglichem Textinhalt, der sich besser für die automatische Konvertierung in HTML und andere Formate eignet.

Der Inhalt von reflowed PDFs ähnelt dem von HTML und lässt sich leichter in neue Systeme einfügen, aber die ersten beiden Arten stellen eine Herausforderung für Datenmigrationsstrategien dar und können durch automatisierte Datenerfassungssysteme gelöst werden.

Viele automatisierte Informationssysteme, darunter auch Systeme der US-Bundesbehörden, geben immer noch gerasterte oder hart umhüllte PDF-Dateien aus, um Bandbreite und Speicherplatz zu sparen, oder einfach, weil die Ursprungssysteme unter technischer Verschuldung leiden und wahrscheinlich nicht überarbeitet oder aufgerüstet werden.

Word collision in PDF-extracted text

Konvertierung von gebackenen Textformatierungen in PDFs

Eine Reihe von proprietären und Open-Source-Projekten haben sich mit dem Problem der Extraktion von strukturierten Informationen aus wissenschaftlichen Forschungs-PDFs beschäftigt. Content ExtRactor and MINEr (CERMINE) ist eine Open-Source-Java-Bibliothek, die auch als Online-Webdienst zur Verfügung steht. Sie wurde entwickelt, um strukturierte Elemente wie Artikel-Titel, Zeitschriften- und bibliografische Informationen, Autoren und Schlüsselwörter zu extrahieren.

CERMINE in action

Eine alternative FOSS-Lösung ist GROBID (GeneRation Of Bibliographic Data), eine Bibliothek für maschinelles Lernen zur Extraktion, Analyse und Umstrukturierung von wissenschaftlichen und technischen PDF-Dokumenten in XML- oder TEI-kodierte Dokumentenformate. GROBID kann standardmäßig ein sehr breites Spektrum an Facetten ableiten, einschließlich Patentreferenzen und sogar Informationen aus "interaktiven" PDFs.

GROBID in action

Adobe, Erfinder des PDF-Formats und selbst führend in der Forschung im Bereich des maschinellen Lernens, hat begonnen, sich mit der Interpretierbarkeit von PDFs zu befassen und einen neuen "Liquid Mode" herausgebracht, mit dem bestimmte "gebackene" PDFs in reflowed PDFs umgewandelt werden können.

Der Dienst basiert auf Adobes Sensei-Plattform und wird zunächst für den Adobe Reader auf Android- und iOS-Geräten zur Verfügung gestellt, wobei geplant ist, die Technologie auf Desktop- und andere Plattformen auszuweiten.

Obwohl eine Business-Level-API für Liquid Mode seit Spätsommer 2020 verfügbar ist, sind weder die kommerzielle Einführung noch die voraussichtliche Preisgestaltung bisher bekannt geworden.

Optische Zeichenerkennung für gerasterte PDFs

Bei der optischen Zeichenerkennung (OCR) handelt es sich um die algorithmische Erkennung von Text, der in Bildern und Videos erscheint. Es handelt sich um eine alte Technologie, die erstmals in den 1920er Jahren entwickelt wurde und seit den 1970er Jahren aktiv weiterentwickelt wird.

In den letzten Jahren hat das intensive Interesse der Gemeinschaft des maschinellen Lernens an OCR die komplexen Verarbeitungspipelines älterer OCR-Technologien zu datengesteuerten Frameworks konsolidiert, die leicht in einem automatischen Datenerfassungssystem genutzt werden können.

Infolgedessen gibt es eine Reihe kommerzieller APIs, die diesen Aspekt eines benutzerdefinierten Frameworks schnell lösen können, wenn auch mit der Unsicherheit, sich auf SaaS zu verlassen, einschließlich möglicher Änderungen der Preisgestaltung und der Servicebedingungen im Laufe der Zeit.

Wirtschaftliche Alternativen können in den verschiedenen verfügbaren FOSS-Lösungen gefunden werden. Dazu gehören:

  • Kraken, ein dediziertes Open-Source-Turnkey-System, das aus dem weniger produktionsreifen Ocropus-Projekt entwickelt wurde. Kraken läuft ausschließlich auf Linux und MacOS, wird über Conda verwaltet und unterstützt CUDA-Beschleunigungsbibliotheken.
  • Calamari OCR-Engine, die den Funktionsumfang von TensorFlow für neuronale Netzwerke nutzt und ausschließlich in Python 3 geschrieben ist.
  • Tesseract, ein FOSS-Kommandozeilen-Framework, das in den 1980er Jahren von Hewlett Packard entwickelt und seit 2006 von Google gepflegt wird.

Identifizierung des Projektstatus mit Beitragsanalyse

Die Aktivität der Mitwirkenden ist ein nützliches Indiz dafür, dass ein gemeinschaftliches oder unternehmensinternes Projekt Fortschritte macht oder zumindest nicht ins Trudeln gerät oder aktuell überarbeitet werden muss.

Ein Projekt kann eine Vielzahl von zentralen Kanälen haben, über die seine Mitwirkenden kommunizieren und Aktivitäten melden, darunter E-Mail, proprietäre zentralisierte Plattformen wie Slack, interne Ticket-Systeme und sogar Nachrichtensysteme wie WhatsApp-Gruppen.

Analysesysteme können auf einige oder alle dieser Kanäle trainiert werden und bieten einen potenziell wertvollen statistischen Einblick in den Zustand eines Projekts. Dies kann eine augenöffnende Alternative zu den individuellen Berichten und Zusammenfassungen von Mitwirkenden oder von zeitlich eingeschränkten Managern darstellen, die versuchen, Projekttrends aus verschiedenen Eingaben über eine Reihe von Kanälen zu erfassen.

Erkennung von Schlüsseln und Merkmalen

Analysesysteme werden sich wahrscheinlich auf zentral gespeicherte Metadaten aus Transaktionen oder JSON- oder SQLite-Instanzen stützen, die einen Aktivitätsdatensatz definieren, obwohl viele andere Protokolle möglich sind.

Die Analyse von Transaktionen dieser Art erfordert eine Datenanalytik-Strategie mit klaren Definitionen über die Bedeutung der gesammelten Datenpunkte. Inaktivität kann zum Beispiel genauso gut eine intensive Arbeitsphase bedeuten (am Projekt selbst oder, durch die schiere Nachfrage, an konkurrierenden Projekten) oder die Beiträge neuer Mitarbeiter widerspiegeln; und ein Anstieg der ticketbasierten Supportanfragen kann tatsächlich auf eine Durchbruchsphase hindeuten, da ehemals unlösbare Probleme den fortgesetzten Bemühungen weichen.

Daher ist entweder eine gewisse Vorlaufzeit erforderlich, um eine interpretative Rahmenschicht zu entwickeln, oder das System sollte FOSS oder anderweitig verwendbare frühere Rahmenwerke nachbilden, die bereits Methoden zur sinnvollen Interpretation von Datenpunkten an einem zentralen Ort der Aktivität, wie einem Gruppenprojekt, etabliert haben.

Auswertung des Mitarbeiterstatus

Eine solche Initiative wurde kürzlich von einer italienischen Forschergruppe unternommen, die versuchte, die Ursachen für die Aufgabe oder den Niedergang von Open-Source-Projekten zu verstehen. Die Forscher entwickelten ein vorläufiges Zustandsmodell auf der Grundlage von Interviews mit Forschern und nutzten diese Erkenntnisse zur Entwicklung eines auf maschinellem Lernen basierenden Analyserahmens für FOSS-Initiativen.

Die Forschung stellte nicht offensichtliche Korrelationen zwischen der Beitragshäufigkeit und der langfristigen Gesundheit der Beziehungen der Entwickler zu einem Projekt fest. Die Ergebnisse zeigten zum Beispiel, dass Gründer oder zentrale Mitwirkende häufig unterschiedlich lange Pausen einlegen (wobei alle Entwickler mindestens eine Pause einlegen), und dass diese "Inaktivität" wahrscheinlich ein Indikator für anhaltende langfristige Bemühungen ist.

Datenextraktion aus komplexen Legacy-Dokumenten

Auch wenn das PDF-Format einige besondere Herausforderungen in Bezug auf die Extraktion von verwertbaren Daten aus alten Dokumenten mit sich bringt, besteht die allgemeinere Herausforderung für eine Datenextraktionspipeline darin, flexible Maschinensysteme zu entwickeln, die in der Lage sind, verschiedene Layout- und Formatierungsstile in einer Reihe von Dokumenttypen zu interpretieren.

Wenn die Daten im See textbasiert sind - ein Format, das alles von reinen Textdateien (eine relative Seltenheit im geschäftlichen Kontext) bis hin zu JSON und E-Mail sowie anderen reinen Textformaten umfassen kann -, ist der Inhalt zwangsläufig linear, da das Schema nichts anderes unterstützt, und die gesamte Herausforderung besteht darin, die Komponenten in diesem überschaubaren Datenstrom zu segmentieren und zu nutzen.

Die Analyse von Rich-Text-Dokumenten erfordert jedoch ein Verständnis dafür, wo sich die Informationen im Dokument befinden. Wenn die Formatierung stark variiert, ist es möglich, eine Vorlage zu entwickeln, die alle wahrscheinlichen Szenarien abdeckt, so dass die Informationen zuverlässig exfiltriert werden können.

Zu den vielen Unternehmen, die routinemäßig solche Definitionen vor der Dokumentenextraktion erstellen, gehört auch IBM, das einen eigenen großen Datensatz mit kommentierten Dokumentenbildern namens PubLayNet erstellt hat.

Possible data schema layouts in PubLayNet

Der Open-Source-Datensatz enthält über 360.000 beschriftete und kommentierte Dokumentenbilder und kann als nützlicher Ausgangspunkt für einen eigenen Extraktionsrahmen dienen. IBM selbst hat die Arbeit als Grundlage für seinen eigenen Corpus Conversion Service genutzt, der die Auffindbarkeit von PDF-basierten Daten durch Extraktion und Konvertierung von PDFs in das JSON-Format verbessern soll.

Extrahieren von verwertbaren Informationen aus Audio und Video

Aus Video- und Audioinhalten sowie aus der Audiokomponente gespeicherter Videos lassen sich verschiedene Arten von Daten ableiten.

Hyperplexe Inhalte

Da Videoinhalte drei potenzielle und unterschiedliche Bereiche umfassen (Audio-, Bild- und semantisch abgeleitete Textinhalte), stellen sie eine große Herausforderung für Informationsextraktionssysteme (IE) dar. Im Jahr 2019 hat das International Journal of Engineering Business Management eine Reihe von Herausforderungen in diesem Bereich klassifiziert:

Information extraction challenges

Allerdings gibt es effektive Open-Source- und kommerzielle Lösungen für die Extraktion aller Komponenten, die je nach Bedarf in maßgeschneiderte On-Premises- oder Cloud-basierte Datenerfassungspipelines integriert werden können. Da die meisten dieser Lösungen aus einem spezifischen Bedarf von Industrie und/oder Behörden entstanden sind, lohnt es sich, die Art der Informationen, die Sie aus Ihren Inhalten ableiten müssen, zu berücksichtigen und zu prüfen, ob eine FOSS-Komponente wirtschaftlich an die Aufgabe angepasst werden kann.

Gründe für die Analyse und Dekonstruktion von Video- und Audioinhalten sind unter anderem:

  • Extrahieren von Untertiteln und effektiven Inhaltszusammenfassungen aus Videos, um vorhandene Videos besser auffindbar zu machen.
  • Extrahieren von biometrischen Daten aus archivierten Bildinhalten, um effektive Sicherheitserkennungssysteme zu entwickeln.
  • Extrahieren semantischer Interpretationen von Aktionen, die in den Inhalten vorkommen, um Datensätze zu entwickeln, die für das Training von Sicherheitssystemen und für andere Zwecke geeignet sind, wie z.B. die Analyse des Kundenverhaltens in Geschäften, die Teil von Computer-Vision-Anwendungen im Einzelhandel ist.
  • Erstellung von bildbasierten Suchfunktionen, die Objekterkennungs-Token für Videoinhalte und semantische Segmentierungsroutinen zum Herausfiltern einzelner Facetten wie Personen und Objekttypen erfordern.
  • Die Durchführung von Emotionserkennung und/oder semantischer Analyse auf archivierten Audio-/Videoaufzeichnungen von Call Centern oder Vertriebszentren, um ein tieferes Verständnis für die effektivsten Kommunikationsmethoden und -richtlinien für Mitarbeiter zu entwickeln und andere verwertbare Daten aus dem Mitarbeiterverhalten zu ermitteln.

Semantische Segmentierung

Unter einer Vielzahl von FOSS-Systemen zur Identifizierung von Personen in Videos hat sich You Only Look Once (YOLO) in den letzten Jahren zu einem Favoriten unter Forschern und Industrieingenieuren entwickelt.

In der aktuellen Version 4 bietet YOLO ein Open-Source-Framework zur Objekterkennung mit CUDA-Optimierung, das jetzt in der Lage ist, eine effektive semantische Segmentierung bei 65 Bildern pro Sekunde durchzuführen, abhängig von der Host-Hardware.

YOLO wendet ein einziges neuronales Netzwerk auf die Analyse des gesamten Bildes an und erstellt Begrenzungsrahmen um identifizierte Objekte. Die Schöpfer, Joseph Redmon und Ali Farhadi, behaupten, dass es bis zu 1.000 Mal schneller läuft als die nächstbeste CNN-basierte Lösung.

YOLO, das in C und nativem CUDA geschrieben wurde, läuft unter dem Darknet Open-Source-Framework für neuronale Netze, das bereits trainierte Modelle und eine auf Discord basierende Support-Gruppe bietet. Wenn Sie jedoch ein Modell benötigen, das besser an PyTorch oder eine andere gängige Framework-Sprache angepasst ist, gibt es derzeit Hunderte von anderen aktiv entwickelten Projekten.

Spracherkennung: Audio zu Text

Neben den beeindruckenden SaaS-Angeboten der FAANG-API-Giganten, die alle ein großes Interesse an der Erschließung von Video- und Audioinhalten haben, ist die FOSS-Spracherkennungsszene ebenso lebendig:

  • Vosk ist ein Python-basiertes Offline-Spracherkennungs-Toolkit, das 18 Sprachen unterstützt, mit kontinuierlicher Transkription eines großen Wortschatzes, Erkennung der Sprecheridentität und einer latenzfreien Streaming-API.
  • Julius ist eine C-basierte Spracherkennungs-Engine mit akademischen Wurzeln, die bis in die frühen 1990er Jahre zurückreichen.
  • Flashlight ist der Nachfolger der älteren FOSS-Bibliothek Wav2Letter von Facebook und integriert die Spracherkennung in ein breiteres Spektrum an Funktionen, einschließlich Objekterkennung und Bildklassifizierung.

Darüber hinaus gibt es eine Vielzahl von Open-Source-Spracherkennungsprojekten, die sich für die Aufnahme in ein dediziertes Framework zur Informationsextraktion eignen, darunter Baidus Python-basiertes DeepSpeech2 (jetzt in NVIDIAs OpenSeq2Seq integriert), Facebooks Python-basiertes Fairseq und Kaldis Speech Recognition Toolkit, das auch native (nicht abstrahierte) Unterstützung für neuronale Netze bietet.

Abschluss

Obgleich jedes Unternehmen selbst entscheiden muss, ob die langfristige Wartung eines speziellen Datenextraktions-Frameworks mit der Wirtschaftlichkeit einer Cloud-basierten SaaS-Infrastruktur vergleichbar ist, stellt die außerordentliche Fülle an hocheffektiven Open-Source-Projekten zur Informationsextraktion eine "goldene Ära" für die Erstellung benutzerdefinierter Datenerfassungspipelines dar - insbesondere, wenn man bedenkt, dass viele der SaaS-Lösungen, von Amazon bis RunwayML, oft nur GUIs und Infrastruktur zu Implementierungen derselben FOSS-Repositories hinzufügen.