===== EMR Amazon Elastic MapReduce (EMR)  =====


^                   ^ Hadoop ^Spark ^
| Architektur       | Hadoop speichert und verarbeitet Daten auf externen Speichern.                                               | Spark speichert und verarbeitet Daten im internen Speicher.                                                                                                            |
| Leistung          | Hadoop verarbeitet Daten stapelweise.                                                                        | Spark verarbeitet Daten in Echtzeit.                                                                                                                                   |
| Kosten            | Hadoop ist **erschwinglich**.                                                                                | Spark ist vergleichsweise **teurer**.                                                                                                                                  |
| Skalierbarkeit    | Hadoop ist einfach skalierbar, indem mehr Knoten hinzugefügt werden.                                         | Spark ist vergleichsweise schwieriger.                                                                                                                                 |
| Machine Learning  | Hadoop lässt sich in externe Bibliotheken integrieren, um Funktionen für Machine Learning bereitzustellen.   | Spark verfügt über integrierte Bibliotheken für Machine Learning.                                                                                                      |
| Sicherheit        | Hadoop verfügt über starke Sicherheitsfunktionen, Speicherverschlüsselung und Zugriffskontrolle.             | Spark verfügt über grundlegende Sicherheitsfunktionen. Die IT ist darauf angewiesen, dass Sie eine sichere Betriebsumgebung für die Spark-Bereitstellung einrichten.   |


==== What can it do? ====

**Example data set:**

{{https://s3.eu-central-1.amazonaws.com/alf-digital-wiki-pics/sharex/vPbv6lFI19.png?430x250}}


**Hive script for processing data. SQL like.**
{{https://s3.eu-central-1.amazonaws.com/alf-digital-wiki-pics/sharex/jRRiluFmLA.png?600x250}}


**Output:**
{{https://s3.eu-central-1.amazonaws.com/alf-digital-wiki-pics/sharex/IP5D5uGEpz.png?450x250}}


All that is passed via S3:
{{https://s3.eu-central-1.amazonaws.com/alf-digital-wiki-pics/sharex/10uoVW8ACX.png?600x250}}