Mô tả công việc
Tóm tắt công việc
Cấu hình và vận hành nền tảng dữ liệu lớn như Cloudera CDP, Databricks, hoặc tương đương;
Vận hành hệ thống xử lý dữ liệu batch và streaming (ETL pipelines, Kafka, Spark Structured Streaming...);
Quản lý và tối ưu hiệu năng cụm xử lý dữ liệu;
Giám sát ETL hàng ngày, xử lý lỗi, đảm bảo hoàn thành đúng SLA;
Làm việc với đội phát triển dữ liệu để cải tiến pipeline, tối ưu các xử lý;
Đề xuất cải tiến
kiến trúc ETL; Streaming, tối ưu chi phí vận hành và độ ổn định hệ thống;
Thiết lập cảnh báo và giám sát ETL/Jobs/Cluster qua công cụ như Prometheus, Grafana,...;
Quản lý truy cập, phân quyền sử dụng dữ liệu và giám sát log truy cập;
Làm việc với các team bảo mật và kiểm toán để đảm bảo compliance;
Xây dựng các tự động hóa cải tiến/thay thế công việc vận hành;
Các công việc khác mà cấp trên giao phó;
Viết SOP, tài liệu hướng dẫn, quy trình khắc phục sự cố, kiểm thử hệ thống định kỳ;
Báo cáo cho ban
giám đốc về các hoạt động của hệ thống.
Yêu cầu
Đào tạo
Tốt nghiệp Cao đẳng/Đại học chuyên ngành Công nghệ thông tin, Khoa học máy tính, Điện tử viễn thông, Toán tin...;
Có chứng chỉ về CSDL;
Có chứng chỉ Cloud Azure/Google/AWS là một lợi thế.
Kiến thức/Kỹ năng chuyên môn
Có kinh nghiệm tối thiểu 2 năm phát triển hoặc vận hành hệ thống ETL (Oracle GoldenGate, ODI, Pentaho,...);
Hiểu rõ nguyên lý ETL: extract từ nhiều nguồn, mapping, transform, load vào warehouse/lakehouse;
Kỹ năng thực tế với nền tảng dữ liệu lớn: Spark, Hive, Hadoop, Kafka là lợi thế lớn;
Kỹ năng SQL nâng cao, hiểu rõ CSDL quan hệ, Performance tuning query trên Oracle, PostgreSQL, SQL Server hoặc tương đương;
Kỹ năng Scripting để tự động hóa các thao tác vận hành;
Kỹ năng đọc & phân tích log hệ thống (Spark UI, YARN, Kubernetes, Logstash, Prometheus, Grafana...);
Kiến thức cơ bản về các hệ quản trị cơ sở dữ liệu;
Hiểu biết về hạ tầng CI/CD, Cloud và container;
Hiểu biết về kiến trúc Data Lake, Lakehouse, Data Mesh;
Có kinh nghiệm làm việc theo các quy trình, tiêu chuẩn Vận hành nền tảng dữ liệu và ứng dụng;
Có kinh nghiệm làm việc tại ngân hàng là một lợi thế.
Ưu tiên
Từng làm với Cloudera Manager hoặc Databricks (UI, CLI, REST API);
Có kinh nghiệm xử lý job fail, phân tích log, tối ưu load time và resource usage;
Có chứng chỉ về dữ liệu hoặc quản trị hệ thống là điểm cộng.
Thông tin khác
DBA
MS Azure
GCP
Oracle
PostgreSQL
ETL
MS SQL
Hadoop
Pentaho
Apache Spark
Apache Hive
Grafana
Logstash
Apache Kafka
AWS
Data Warehouse
Kubernetes
Yarn
ODI
Prometheus
CI/CD
Data Lakehouse
Thông tin chung
- Thu nhập: Lên đến 2500USD
Cách thức ứng tuyển
Ứng viên nộp hồ sơ trực tuyến bằng cách bấm nút Ứng tuyển bên dưới:
Hạn nộp: 25/06/2026