Mô tả Công việc
Thiết kế và phát triển các pipeline ETL hiệu quả để xử lý và chuyển đổi dữ liệu từ nhiều nguồn khác nhau vào kho dữ liệu, đảm bảo chất lượng và tính toàn vẹn của dữ liệu.
Triển khai và duy trì data lakes và kho dữ liệu, sử dụng các công nghệ như Redshift, PostgreSQL và các dịch vụ AWS.
Hợp tác với các nhóm liên chức năng để thu thập yêu cầu dữ liệu, thiết kế mô hình dữ liệu và tối ưu hóa cấu trúc dữ liệu để lưu trữ và truy vấn hiệu quả.
Sử dụng các ngôn ngữ kịch bản (ví dụ: Python) và SQL để trích xuất, xử lý và chuyển đổi dữ liệu
phục vụ quy trình ETL và tích hợp mô hình.
Triển khai các giải pháp xử lý dữ liệu theo thời gian thực nhằm thu thập và xử lý dữ liệu từ API.
Giám sát và tối ưu hóa hiệu suất của pipeline dữ liệu, cơ sở dữ liệu và các quy trình xử lý dữ liệu phục vụ cho phân tích.
Thực hiện các quy trình làm sạch, xác thực và đảm bảo chất lượng dữ liệu .