===== EMR Amazon Elastic MapReduce (EMR) ===== ^ ^ Hadoop ^Spark ^ | Architektur | Hadoop speichert und verarbeitet Daten auf externen Speichern. | Spark speichert und verarbeitet Daten im internen Speicher. | | Leistung | Hadoop verarbeitet Daten stapelweise. | Spark verarbeitet Daten in Echtzeit. | | Kosten | Hadoop ist **erschwinglich**. | Spark ist vergleichsweise **teurer**. | | Skalierbarkeit | Hadoop ist einfach skalierbar, indem mehr Knoten hinzugefügt werden. | Spark ist vergleichsweise schwieriger. | | Machine Learning | Hadoop lässt sich in externe Bibliotheken integrieren, um Funktionen für Machine Learning bereitzustellen. | Spark verfügt über integrierte Bibliotheken für Machine Learning. | | Sicherheit | Hadoop verfügt über starke Sicherheitsfunktionen, Speicherverschlüsselung und Zugriffskontrolle. | Spark verfügt über grundlegende Sicherheitsfunktionen. Die IT ist darauf angewiesen, dass Sie eine sichere Betriebsumgebung für die Spark-Bereitstellung einrichten. | ==== What can it do? ==== **Example data set:** {{https://s3.eu-central-1.amazonaws.com/alf-digital-wiki-pics/sharex/vPbv6lFI19.png?430x250}} **Hive script for processing data. SQL like.** {{https://s3.eu-central-1.amazonaws.com/alf-digital-wiki-pics/sharex/jRRiluFmLA.png?600x250}} **Output:** {{https://s3.eu-central-1.amazonaws.com/alf-digital-wiki-pics/sharex/IP5D5uGEpz.png?450x250}} All that is passed via S3: {{https://s3.eu-central-1.amazonaws.com/alf-digital-wiki-pics/sharex/10uoVW8ACX.png?600x250}}