Thiết kế và triển khai data pipeline ETL/ELT trên
kiến trúc Data Lakehouse (Medallion Architecture: Bronze → Silver → Gold)
Phát triển và tối ưu Spark jobs xử lý dữ liệu lớn; tuning config Spark để đảm bảo hiệu năng
Viết và quản lý DAG trên Apache Airflow; tối ưu scheduling, dependency, retry logic, idempotency
Làm việc với hệ thống lưu trữ HDFS và table format Apache Iceberg (schema evolution, partitioning, time travel)
Xây dựng và tối ưu data warehouse OLAP (ưu tiên Apache Doris): thiết kế bảng, index, bucketing, tuning query performance và cấu hình hệ thống
Xây dựng hệ thống monitoring & alerting cho data pipeline: theo dõi SLA, data freshness, job failure, resource usage
Triển khai và duy trì Data Lineage: truy vết nguồn gốc dữ liệu xuyên suốt pipeline từ source đến consumption layer
Đảm bảo Data Quality: thiết kế và triển khai các bộ kiểm tra chất lượng dữ liệu (validation, profiling, anomaly detection) tích hợp vào pipeline
Ứng dụng ML/DL/AI Agent trong xử lý và làm sạch dữ liệu (deduplication, classification, imputation, entity resolution)
Xây dựng và tuân thủ Data Contract giữa các team; tham gia triển khai Data Governance framework
Phối hợp với BA để nắm bắt yêu cầu nghiệp vụ, chuyển hoá thành giải pháp dữ liệu
Phối hợp với DA/BI để xây dựng các luồng dữ liệu chất lượng cao
phục vụ phân tích và báo cáo
Viết và duy trì technical documentation cho pipeline, schema, data contract và vận hành hệ thống
Tham gia vận hành, monitor hệ thống trên môi trường Linux server
Thu nhập: lên tới 25 triệu theo năng lực chuyên môn thực tế.
Được đào tạo về kiến thức chuyên môn, môi trường trẻ trung, năng động.
Tham gia BHXH, thưởng lễ Tết theo quy định.