Datenanalyse ohne Hadoop-Cluster


Eine Datenanalyse ohne Aufbau eines Hadoop-Clusters ist immer dann sinnvoll, wenn der Aufbau des Cluster keinen Mehrwert liefert, beispielsweise dann, wenn die Daten einfach doch nicht sooo groß sind.

Sie werden natürlich entgegnen, dass auch Ihre Daten enorm groß sind. Möglich, aber was wollen Sie damit machen?

Nehmen wir an Sie erhalten aus Ihrem Produktionsbetrieb in regelmäßigen Abständen (z.B. jede Stunde oder auch gerne jede Minute) die Daten der fehlerfrei und der fehlerhaft produzierten Transportpaletten. Wenn das Beispiel auch ein wenig hinkt: Diese Datensätze sind enorm umfangreich und groß.

Sie möchten gerne eine grafische Übersicht dieser summierten Werte pro Stunde, pro Tag, pro Woche, pro Monat und später dann auch pro Jahr. Natürlich würde es sehr lange dauern (weil die Daten so umfangreich und groß sind) alle einzelnen Daten immer und immer wieder zu einem monatlichen Bericht zusammenzufassen. Ja, ein Hadoop-Cluster würden die Verarbeitungszeit drastisch reduzieren können, da die einzelnen Tage ggf. über jeden Cluster-Member verteilt gerechnet und im Anschluss sehr einfach zusammengefasst werden könnten.

Aber sinnvoller wäre es doch hier, die einzelnen Werte pro Zeiteinheit zu ermitteln und zusätzlich aggregiert abzulegen, da eine nachträgliche Änderung der Daten in unserem Anwendungsfall sehr unwahrscheinlich scheint. Also werden die Daten, die wir pro Stunde (oder Minute) erhalten, analysiert und die Gesamtanzahl der fehlerfrei und der fehlerhaft produzierten Transportpaletten werden für diese jeweilige Zeiteinheit abgelegt, so dass die Ermittlung für die nächst höhere Zeiteinheit (z.B. pro Tag) sehr einfach und schnell geht. Genauso könnten wir für die nächst größere Zeiteinheit, den Tag, und die Ermittlung der Werte für die Woche vorgehen. Und so weiter.

Ok, es klingt nicht sexy. Aber es ist einfach und super effizient.

Sollten Sie trotz dieses Beispiels Interesse an einem Hadoop-Cluster haben, so schauen Sie sich gerne den Aufbau der Advanced Analytics Appliance an.

Ergänzung: Um Ihnen ein wenig Geschmack für eine solche Appliance zu machen - auch um mir mit einer eigenen Argumentation selbst ein zu widersprechen - könnten Sie die zuvor genannten aggregierten Daten in einer sehr effizienten spaltenorientierten Datenbank pro Zeiteinheit verteilt auf dem Hadoop-Cluster ablegen und mit Komponenten aus dem Hadoop-Öko-System auswerten.


< zurück zum letzten Artikel