User Tools

Site Tools


cloud:aws:big_data:emr

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
cloud:aws:big_data:emr [2023/11/01 07:13] – removed - external edit (Unknown date) 127.0.0.1cloud:aws:big_data:emr [2023/11/01 07:13] (current) – ↷ Page moved from business_process_management:camunda:cloud:aws:big_data:emr to cloud:aws:big_data:emr skipidar
Line 1: Line 1:
 +===== EMR Amazon Elastic MapReduce (EMR)  =====
  
 +
 +^                   ^ Hadoop ^Spark ^
 +| Architektur       | Hadoop speichert und verarbeitet Daten auf externen Speichern.                                               | Spark speichert und verarbeitet Daten im internen Speicher.                                                                                                            |
 +| Leistung          | Hadoop verarbeitet Daten stapelweise.                                                                        | Spark verarbeitet Daten in Echtzeit.                                                                                                                                   |
 +| Kosten            | Hadoop ist **erschwinglich**.                                                                                | Spark ist vergleichsweise **teurer**.                                                                                                                                  |
 +| Skalierbarkeit    | Hadoop ist einfach skalierbar, indem mehr Knoten hinzugefügt werden.                                         | Spark ist vergleichsweise schwieriger.                                                                                                                                 |
 +| Machine Learning  | Hadoop lässt sich in externe Bibliotheken integrieren, um Funktionen für Machine Learning bereitzustellen.   | Spark verfügt über integrierte Bibliotheken für Machine Learning.                                                                                                      |
 +| Sicherheit        | Hadoop verfügt über starke Sicherheitsfunktionen, Speicherverschlüsselung und Zugriffskontrolle.             | Spark verfügt über grundlegende Sicherheitsfunktionen. Die IT ist darauf angewiesen, dass Sie eine sichere Betriebsumgebung für die Spark-Bereitstellung einrichten.   |
 +
 +
 +
 +==== What can it do? ====
 +
 +**Example data set:**
 +
 +{{https://s3.eu-central-1.amazonaws.com/alf-digital-wiki-pics/sharex/vPbv6lFI19.png?430x250}}
 +
 +
 +**Hive script for processing data. SQL like.**
 +{{https://s3.eu-central-1.amazonaws.com/alf-digital-wiki-pics/sharex/jRRiluFmLA.png?600x250}}
 +
 +
 +**Output:**
 +{{https://s3.eu-central-1.amazonaws.com/alf-digital-wiki-pics/sharex/IP5D5uGEpz.png?450x250}}
 +
 +
 +
 +All that is passed via S3:
 +{{https://s3.eu-central-1.amazonaws.com/alf-digital-wiki-pics/sharex/10uoVW8ACX.png?600x250}}