Regex und Talend Open Studio

Screenshot TOS

Die Aufgabe: Log-Dateien verschiedener Webservers (z.B. Apache HTTP Server) müssen zusammen geführt und für die weitere Verarbeitung aufbereitet werden.

Die Lösung: Talend Open Studio stellt eine Komponente zur Verfügung, mit der ein Regulärer Ausdruck zeilenweise auf eine Datei angewendet werden kann. In unserem Beispiel verwenden wir tFileList_1, um die gewünschte Dateiliste abzuarbeiten.

Screenshot TOS

Das jeweils aktuelle File wird von tFileInputRegex_1 geöffnet und zeilenweise durch folgenden regulären Ausdruck in seine einzelnen Bestandteile zerlegt.

"^(\\S+) (\\S+) (\\S+) \\[([^ ]+) ([^ ]+)\\] \"([^ ]+) ([^ ]+) " +
"[^\"]+\" ([\\d|-]+) ([\\d|-]+) \"(.*)\" \"(.*)\""

Die gefundenen Teilstücke werden dann auf das hinterlegt Schema übertragen.

Screenshot TOS

Das Datumsformat „dd/MMM/yyyy:hh:mm:ss“ ermöglicht Talend Open Studio die Zeichenkette korrekt zu interpretieren.

Die weitere Verarbeitung hängt nun vom speziellen Anwendungsfall ab. Interessant ist beispielsweise die Übergabe an einen Jasper-Report, der dann per E-Mail versendet wird.

Schreibe einen Kommentar

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.