Mô tả công việc
Thiết kế và triển khai data pipeline ETL/ELT trên
kiến trúc Data Lakehouse (Medallion Architecture: Bronze → Silver → Gold)
Phát triển và tối ưu Spark jobs xử lý dữ liệu lớn; tuning config Spark để đảm bảo hiệu năng
Viết và quản lý DAG trên Apache Airflow; tối ưu scheduling, dependency, retry logic, idempotency
Làm việc với hệ thống lưu trữ HDFS và table format Apache Iceberg (schema evolution, partitioning, time travel)
Xây dựng và tối ưu data warehouse OLAP (ưu tiên Apache Doris): thiết kế bảng, index, bucketing, tuning query performance và cấu hình hệ thống
Xây dựng hệ thống monitoring & alerting cho data pipeline: theo dõi SLA, data freshness, job failure, resource usage
Triển khai và duy trì Data Lineage: truy vết nguồn gốc dữ liệu xuyên suốt pipeline từ source đến consumption layer
Đảm bảo Data Quality: thiết kế và triển khai các bộ kiểm tra chất lượng dữ liệu (validation, profiling, anomaly detection) tích hợp vào pipeline
Ứng dụng ML/DL/AI Agent trong xử lý và làm sạch dữ liệu (deduplication, classification, imputation, entity resolution)
Xây dựng và tuân thủ Data Contract giữa các team; tham gia triển khai Data Governance framework
Phối hợp với BA để nắm bắt yêu cầu nghiệp vụ, chuyển hoá thành giải pháp dữ liệu
Phối hợp với DA/BI để xây dựng các luồng dữ liệu chất lượng cao
phục vụ phân tích và báo cáo
Viết và duy trì technical documentation cho pipeline, schema, data contract và vận hành hệ thống
Tham gia vận hành, monitor hệ thống trên môi trường Linux server
Yêu cầu
Yêu cầu bắt buộc
Kinh nghiệm & nền tảng:
Tối thiểu 2 - 3 năm kinh nghiệm làm việc thực tế với hệ thống Big Data xử lý hàng tỷ dòng dữ liệu.
Hiểu biết về data modeling (Star schema, Data Vault 2.0) và Medallion Architecture
Ngôn ngữ lập trình:
Thành thạo Python: đây là yêu cầu bắt buộc
Thành thạo SQL nâng cao: window function, CTE, query optimization, execution plan
Big Data Stack:
Thành thạo Apache Spark (PySpark): viết Spark job, tuning config (memory, shuffle, partitioning, broadcast join)
Có kinh nghiệm thiết kế và quản lý DAG Apache Airflow tối ưu
Hiểu biết về HDFS và Apache Iceberg trong môi trường Data Lakehouse
Data Warehouse OLAP:
Có kinh nghiệm với OLAP DW, hiểu kiến trúc columnar storage, materialized view; ưu tiên Apache Doris
Có khả năng tuning query thông qua thiết kế bảng, index, bucketing, partition, properties
Data Quality & Observability:
Có kinh nghiệm triển khai data quality checks (Great Expectations, dbt test hoặc tương đương)
Có khả năng xây dựng hệ thống monitoring pipeline (Grafana, Prometheus, hoặc custom alerting)
Hiểu biết và có kinh nghiệm triển khai Data Lineage (OpenLineage, Marquez hoặc tương đương)
Quy trình & cộng tác:
Thành thạo Git workflow: branching strategy, pull request, code review
Có thói quen viết technical documentation rõ ràng, đầy đủ
Làm việc tốt trên môi trường Linux server (bash scripting, SSH, log management)
Kỹ năng teamwork tốt, chủ động giao tiếp, tư duy hướng sản phẩm
Yêu cầu ưu tiên (Nice to have)
Real-time & Streaming:
Hiểu biết về xử lý real-time data: Apache Kafka (producer/consumer, topic design), Apache Flink (stream processing, windowing)
Có kinh nghiệm xử lý stateful / stateless data streams
AI/ML trong Data Engineering:
Ứng dụng ML/DL để làm sạch và chuẩn hoá dữ liệu (anomaly detection, entity resolution, deduplication)
Có kiến thức về AI Agent và LLM ứng dụng trong tự động hoá data pipeline hoặc data quality
Governance & Architecture:
Hiểu biết về Master Data Management (MDM)
Có kinh nghiệm thiết kế và triển khai Data Contract, Data Governance framework
Có kiến thức về Data Catalog (Apache Atlas, DataHub hoặc tương đương)
Infrastructure:
Kiến thức về Infrastructure as Code: Ansible, Terraform
Có kinh nghiệm deploy/maintain hệ thống trên bare-metal hoặc cloud
Nice to have Java/Scala: đọc hiểu và debug Spark job viết bằng Java/Scala
Quyền lợi
Thu nhập: lên tới 25 triệu theo năng lực chuyên môn thực tế.
Được đào tạo về kiến thức chuyên môn, môi trường trẻ trung, năng động.
Tham gia BHXH, thưởng lễ Tết theo quy định.
Thông tin khác
Thời gian làm việc
Thứ 2 - Thứ 6 (từ 08:30 đến 16:30)
Thông tin chung
Nơi làm việc
- - Hà Nội: Tòa nhà Mỹ Đình Plaza 2, số 2 Nguyễn Hoàng, Phường Từ Liêm (quận Nam Từ Liêm cũ)
Cách thức ứng tuyển
Ứng viên nộp hồ sơ trực tuyến bằng cách bấm nút Ứng tuyển bên dưới:
Hạn nộp: 30/04/2026