Tohuwabohu excorcism

EMR Amazon Elastic MapReduce (EMR)

	Hadoop	Spark
Architektur	Hadoop speichert und verarbeitet Daten auf externen Speichern.	Spark speichert und verarbeitet Daten im internen Speicher.
Leistung	Hadoop verarbeitet Daten stapelweise.	Spark verarbeitet Daten in Echtzeit.
Kosten	Hadoop ist erschwinglich.	Spark ist vergleichsweise teurer.
Skalierbarkeit	Hadoop ist einfach skalierbar, indem mehr Knoten hinzugefügt werden.	Spark ist vergleichsweise schwieriger.
Machine Learning	Hadoop lässt sich in externe Bibliotheken integrieren, um Funktionen für Machine Learning bereitzustellen.	Spark verfügt über integrierte Bibliotheken für Machine Learning.
Sicherheit	Hadoop verfügt über starke Sicherheitsfunktionen, Speicherverschlüsselung und Zugriffskontrolle.	Spark verfügt über grundlegende Sicherheitsfunktionen. Die IT ist darauf angewiesen, dass Sie eine sichere Betriebsumgebung für die Spark-Bereitstellung einrichten.

Example data set:

Hive script for processing data. SQL like.

Output:

All that is passed via S3: