Инструменты, которые мы упоминали, если не уловили на слух:
- Streaming: Kafka, Flink, Spark Streaming, Spark
- Querying: Athena, Trino (ex PrestoSQL), SparkSQL
- Storage: Redshift, RDS, S3, Parquet, hdfs
- Data Quality: redata, montecarlodata, anomalo
- Data Platform~ish: databricks, fivetran, Airbyte (singer), airflow + k8s + spark, aws glue, google cloud dataflow, IBM/the-mesh-for-data
Инструменты, которые мы упоминали, а потом вырезали: dbt, ray, dask