Tohuwabohu excorcism

This is an old revision of the document!

Big Data

A nice overview of UI for available BigData tools

Here the title picture again

Even better overview of tools for data-pipelines

Parameter	AWS Kinesis Firehose	AWS Glue Service	AWS EMR	AWS Athena	Apache Flink
Purpose	Real-time data ingestion and transformation for data streams.	ETL and data preparation for analytics and warehousing.	Managed big data processing with Hadoop and Spark.	Serverless SQL query service for data in Amazon S3.	Stream processing for real-time data applications.
Pricing Model	Pay-as-you-go	DPU-based	Instance-based	Per query and data	Infrastructure costs
Data Processing and Integration	Real-time data streaming and transformation	ETL, data preparation	Big data processing	SQL query service	Stream processing
Data Sources	AWS services, cloud apps	Databases, data lakes, APIs	Various sources	Amazon S3	Multiple sources
Integration and Output	AWS services, S3, Redshift, Elasticsearch, etc.	AWS services, data warehouses	Various AWS services	Amazon S3, export	Multiple data sinks
Data Catalog and Metadata Management	None	AWS Glue Data Catalog	Integration with AWS Glue	AWS Glue Data Catalog	External tools may be required