All Posts

Published on
March 16, 2024
Data Engineering Resources: Curated Links and Tools
Data-Engineering Resources Tools Learning Best-Practices
Curated data engineering resources: tutorials, tools, documentation, and community links for building modern data pipelines.
Published on
March 16, 2024
Apache Spark and PySpark: Big Data Processing Guide
Apache-Spark PySpark Big-Data Data-Processing Distributed-Computing
Master Apache Spark: architecture, RDDs, DataFrames, Spark SQL, MLlib, and PySpark for distributed big data processing at scale.
Published on
March 16, 2024
Connect to PostgreSQL with PySpark: JDBC Tutorial
Data-Engineering PySpark PostgreSQL Database Tutorial
Connect PySpark to PostgreSQL via JDBC. Load, transform, and write data between Spark DataFrames and PostgreSQL tables.
Published on
March 16, 2024
Install Apache Spark on Windows: Complete Setup Guide
Apache-Spark Windows Installation Setup Tutorial
Install Apache Spark on Windows: Java setup, Hadoop winutils, environment variables, troubleshooting, and verification steps.
Published on
March 16, 2024
Data Processing Pipeline Patterns: Complete Guide
Data-Processing Pipeline Patterns Data-Engineering Architecture
Master data pipeline patterns: linear, branching, parallel, looping, and hybrid architectures with Python examples.

Data Engineering Resources: Curated Links and Tools