Tóm tắt công việc
Cấu hình và vận hành nền tảng dữ liệu lớn như Cloudera CDP, Databricks, hoặc tương đương;
Vận hành hệ thống xử lý dữ liệu batch và streaming (ETL pipelines, Kafka, Spark Structured Streaming...);
Quản lý và tối ưu hiệu năng cụm xử lý dữ liệu;
Giám sát ETL hàng ngày, xử lý lỗi, đảm bảo hoàn thành đúng SLA;
Làm việc với đội phát triển dữ liệu để cải tiến pipeline, tối ưu các xử lý;
Đề xuất cải tiến
kiến trúc ETL; Streaming, tối ưu chi phí vận hành và độ ổn định hệ thống;
Thiết lập cảnh báo và giám sát ETL/Jobs/Cluster qua công cụ như Prometheus, Grafana,...;
Quản lý truy cập, phân quyền sử dụng dữ liệu và giám sát log truy cập;
Làm việc với các team bảo mật và kiểm toán để đảm bảo compliance;
Xây dựng các tự động hóa cải tiến/thay thế công việc vận hành;
Các công việc khác mà cấp trên giao phó;
Viết SOP, tài liệu hướng dẫn, quy trình khắc phục sự cố, kiểm thử hệ thống định kỳ;
Báo cáo cho ban
giám đốc về các hoạt động của hệ thống.