User Tools

Site Tools


cloud:aws:big_data:emr

EMR Amazon Elastic MapReduce (EMR)

Hadoop Spark
Architektur Hadoop speichert und verarbeitet Daten auf externen Speichern. Spark speichert und verarbeitet Daten im internen Speicher.
Leistung Hadoop verarbeitet Daten stapelweise. Spark verarbeitet Daten in Echtzeit.
Kosten Hadoop ist erschwinglich. Spark ist vergleichsweise teurer.
Skalierbarkeit Hadoop ist einfach skalierbar, indem mehr Knoten hinzugefügt werden. Spark ist vergleichsweise schwieriger.
Machine Learning Hadoop lässt sich in externe Bibliotheken integrieren, um Funktionen für Machine Learning bereitzustellen. Spark verfügt über integrierte Bibliotheken für Machine Learning.
Sicherheit Hadoop verfügt über starke Sicherheitsfunktionen, Speicherverschlüsselung und Zugriffskontrolle. Spark verfügt über grundlegende Sicherheitsfunktionen. Die IT ist darauf angewiesen, dass Sie eine sichere Betriebsumgebung für die Spark-Bereitstellung einrichten.

What can it do?

Example data set:

Hive script for processing data. SQL like.

Output:

All that is passed via S3:

cloud/aws/big_data/emr.txt · Last modified: 2023/11/01 07:13 by skipidar