Tham gia thiết kế, xây dựng và duy trì các pipeline dữ liệu (ETL/ELT) từ nhiều nguồn khác nhau;
Hỗ trợ phát triển và duy trì kho dữ liệu (Data Warehouse)
phục vụ mục tiêu phân tích và báo cáo;
Vận hành, triển khai các job ETL, tổng hợp dữ liệu;
Đảm bảo chất lượng dữ liệu: kiểm tra, làm sạch và xử lý dữ liệu lỗi;
Học hỏi, cập nhật các công nghệ mới để tối ưu hóa hiệu suất hệ thống dữ liệu;
Tham gia triển khai các công cụ giám sát và cảnh báo để đảm bảo hệ thống dữ liệu hoạt động ổn định;
Phối hợp với các phòng ban để hiểu nhu cầu dữ liệu và hỗ trợ triển khai các giải pháp phù hợp;
Hỗ trợ các nhiệm vụ khác trong phạm vi công việc khi được yêu cầu.
Tốt nghiệp đại học chuyên nghành CNTT hoặc liên quan;
Có kinh nghiệm làm việc với các hệ quản trị cơ sở dữ liệu như PostgreSQL, SQL Server, Oracle, Snowflake hoặc BigQuery.
Thành thạo một hoặc nhiều ngôn ngữ lập trình: Python, Java,
Kinh nghiệm làm việc với các công cụ ETL như Airflow, dbt, Talend, Informatica.
Hiểu biết về các nền tảng xử lý dữ liệu lớn như Apache Spark, Kafka, Hadoop.
Có kinh nghiệm triển khai hệ thống dữ liệu trên nền tảng AWS, Azure hoặc Google Cloud Platform (GCP).
Kinh nghiệm làm việc với hệ thống lưu trữ dữ liệu NoSQL như MongoDB, Cassandra, Elasticsearch là một lợi thế.
Kỹ năng tối ưu hóa truy vấn SQL và hiệu suất hệ thống dữ liệu.
Hiểu biết về các phương pháp
quản lý dữ liệu, bảo mật và tuân thủ dữ liệu (GDPR, HIPAA là một lợi thế).
Kinh nghiệm với CI/CD, containerization (Docker, Kubernetes) là một lợi thế.
Kỹ năng scripting tốt (Bash, Python).
Tư duy giải quyết vấn đề tốt, có khả năng làm việc độc lập và teamwork.
Điểm cộng:
Có kinh nghiệm làm việc trong các hệ thống dữ liệu real-time.
Kinh nghiệm trong việc triển khai
kiến trúc Data Lake, Data Mesh hoặc Data Fabric.
Có chứng chỉ liên quan đến Data Engineering từ AWS, GCP hoặc Azure.