Enterprise Computing Conference 2015

Die Enterprise Computing Conference 2015 (ECC) der ceCMG fand dieses Jahr in Hannover statt. Es war mein erster Besuch der Konferenz, die sich mit den Themenschwerpunkten zPricing, Application Performance und Big Data beschäftigt. Die Teilnehmerzahl ist mit ca. 100 überschaubar und  mit sehr interessanten Firmen aus dem Versicherung- und Finanzsektor besetzt.

Für mich war der zweite Tag der Konferenz mit einem Big Data Seminar besonders aufschlussreich.

Am Vormittag wurde ich von der ersten These des Moderators sehr überrascht:

Big Data = Big Data Warehouse?

Damit wollte er polarisieren, aber die Folge war, dass dann doch über alte Zöpfe diskutiert wurde. Big Data muss demnach am Besten in relationalen Datenbanken abgelegt und vorher auf das notwendigste gefiltert werden, damit es hochperformant bleibt. Damit geht leider der Big Data Ansatz von unstrukturierten Daten völlig verloren. Am Ende wurde tatsächlich darüber diskutiert, ob ein Data Warehouse nicht doch ein passender Big Data Ansatz ist.

Daraus konnte man klar die Angst erkennen, dass die neuen Techniken eventuell nicht beherrschbar sein könnten. Ablage von Daten ohne festes Schema wie es NoSQL, Hadoop oder Splunk realisiert haben, stieß auf große Skepsis. Eine gut optimierte Datenbank oder gar eine In-Memory-Datenbank können diese Aufgaben genauso gut und schnell übernehmen.

Es wurde klar, dass der Business Ansatz der unstrukturierten Daten noch nicht angekommen war und hier noch einige Überzeugungsarbeit geleistet werden muss. Ich hoffe nur, dass einige der Firmen nicht den Einstiegspunkt mit dieser Haltung verpassen.

Der Nachmittag war nicht minder kurzweilig:

Onboarding von Daten in einen Hadoop Cluster und im späteren Verlauf die Auswertung von Daten aus Hadoop.

Ich war gespannt, wie kompliziert das Data Onboarding nach Hadoop wohl sein mag und wurde negativ überrascht. Wie in Open Source üblich ist alles möglich – aber nichts fertig. Es wurde eine Stunde darüber referiert, Daten aus einer Log Datei mit dem Map Reduce Verfahren in einen Cluster zu legen. Dabei überraschte dann noch mehr die Aussage, dass min. 15 Knoten für eine performante Speicherung von ca. 50GB innerhalb von 24h sinnvoll seien. Jetzt bin ich zwar beruflich durch meine Splunk Kenntnisse vorbelastet – aber der Aufwand und das Sizing waren doch sehr befremdlich. Zur Ehrenrettung von Hadoop sei gesagt, dass es kommerzielle Distributionen gibt, die die Arbeit deutlich erleichtern und auch viele vorgefertigte Module mitbringen.
Der Ansatz der Moderators war sehr wissenschaftlich und die Nähe zu einer Hochschule deutlich. In der freien Wirtschaft räume ich reinen Open Source Lösungen keine große Zukunft ein, da zum Einen keine Standardisierung erreicht wird und zum Anderen kein professioneller Support im Fehlerfall zur Verfügung steht. Außerdem ist der hohe Personalaufwand gegenüber einer kommerziellen Lösung nicht zu rechtfertigen.

Die Auswertung der Daten war auch wieder ein wissenschaftlicher Ansatz. 45 Minuten für die Programmierung eines Graphen war ebenfalls viel zu lang. Hier werden sich professionelle Visualisierungswerkzeuge langfristig durchsetzen.

Generell bin ich kein Gegner von Lösungen auf Basis der Hadoop Technologie. Sie bieten die Möglichkeit, große Datenmengen in ihrem eigenen Dateisystem HFS abzulegen und das zu einem sehr günstigen Preis was die Hardware anbelangt. Auch ich arbeite selbst beruflich gerne mit Hadoop – dann aber in Zusammenhang mit Hunk von Splunk, das eine Schnittstelle zum Hadoop Cluster bietet und umfangreiche Auswertungen der Daten möglich macht.

Ich freue mich schon heute, im nächsten Jahr wieder auf dieser Konferenz zu sein und die Veränderungen der letzten 12 Monate mit den Teilnehmern zu besprechen.