Xây dựng, triển khai và tối ưu hóa quy trình ETL sử dụng Airflow và Python.
Thiết kế và duy trì các pipeline dữ liệu
phục vụ cho hệ thống Data Warehouse.
Quản lý dữ liệu, lưu trữ, và các cấu trúc dữ liệu lớn trên MinIO.
Phối hợp với đội ngũ ứng dụng và phân tích để đảm bảo tính nhất quán và hiệu quả trong xử lý dữ liệu.
Trên 3 năm kinh nghiệm trong lĩnh vực Data Engineering.
Kỹ năng mạnh về Python và ETL (sử dụng Airflow, Airbyte).
Hiểu biết về các hệ thống lưu trữ dữ liệu như MinIO hoặc các giải pháp tương tự.
Kinh nghiệm làm việc với Data Warehouse và các công cụ liên quan.
Khả năng làm việc nhóm và làm việc dưới áp lực cao, khả năng tự tìm hiểu và ứng dụng công nghệ mới.
Các kỹ năng khác:
Hệ thống Data Warehouse: Hiểu biết chuyên sâu về
kiến trúc và quy trình ETL trong các hệ thống Data Warehouse. Kiến thức về cơ sở dữ liệu OLAP (Online Analytical Processing) và khả năng tối ưu hóa truy vấn dữ liệu lớn.
Big Data: Có kinh nghiệm làm việc với các hệ sinh thái dữ liệu lớn như Hadoop, Spark, hoặc các nền tảng lưu trữ phân tán.
SQL nâng cao: Kỹ năng SQL chuyên sâu để viết và tối ưu hóa truy vấn phức tạp. Khả năng tối ưu hóa hiệu năng truy vấn cho các tập dữ liệu lớn.
Data Lake: Kiến thức về các mô hình Data Lake và Data Lakehouse, cùng với kỹ năng sử dụng các công cụ như AWS S3, Google Cloud Storage, hoặc MinIO để quản lý dữ liệu lớn.
Python: Thành thạo Python cho xử lý dữ liệu và tự động hóa các pipeline dữ liệu. Kinh nghiệm trong việc tạo các script tự động hóa với thư viện Pandas, NumPy, hoặc các thư viện liên quan đến dữ liệu.
Quản lý workflow: Thành thạo công cụ Airflow cho việc quản lý và giám sát các luồng công việc ETL, cũng như khả năng xử lý lỗi và khắc phục sự cố khi luồng công việc bị gián đoạn.