Thiết kế và xây dựng pipeline dữ liệu: Kỹ sư dữ liệu chịu trách nhiệm thiết kế, phát triển và tối ưu hóa các luồng xử lý dữ liệu (ETL/ELT) để chuyển đổi, tải và tích hợp dữ liệu từ các hệ thống nguồn (như hệ thống ngân hàng lõi, CRM, ERP) vào Data Lake. Mục tiêu đảm bảo dữ liệu được xử lý một cách nhanh chóng và hiệu quả.
Quản lý và bảo trì hệ thống dữ liệu: Đảm bảo rằng hệ thống Data Lake hoạt động ổn định, thực hiện bảo trì thường xuyên và cải tiến hiệu suất hệ thống khi cần thiết, bao gồm việc giám sát dữ liệu, phát hiện và khắc phục sự cố, cũng như tối ưu hóa hiệu suất hệ thống.
Xử lý và tích hợp dữ liệu lớn (Big Data): Với khối lượng dữ liệu lớn, kỹ sư dữ liệu cần sử dụng các công nghệ Big Data như Apache Hadoop, Spark hoặc Kafka để xử lý và lưu trữ dữ liệu một cách hiệu quả.
- Kinh nghiệm với hệ thống dữ liệu lớn (Big Data) bao gồm việc xử lý và lưu trữ dữ liệu trong môi trường phân tán. Hiểu biết về các mô hình lưu trữ dữ liệu như Data Lake và Data Warehouse, khả năng
quản lý dữ liệu bán cấu trúc và phi cấu trúc (JSON, XML)
- Vai trò: Xây dựng và duy trì các pipeline dữ liệu, bảo đảm tuân thủ quy định bảo mật và hiệu suất cao.
- Trách nhiệm:
o Phát triển và triển khai các pipeline ETL/ELT để chuyển đổi và tích hợp dữ liệu từ nhiều nguồn ngân hàng.
o Thiết lập các cơ chế xử lý dữ liệu lớn và tối ưu hóa hiệu suất hệ thống.
o Đảm bảo dữ liệu được quản lý theo các chính sách của ngân hàng và tuân thủ quy định pháp luật về dữ liệu.
Bằng cấp: Tốt nghiệp đại học chuyên ngành Khoa học Máy tính, Kỹ thuật Phần mềm, Hệ thống Thông tin, hoặc các ngành liên quan, Thành tạo tiếng anh đọc hiểu tài liệu
o Chứng chỉ: Ưu tiên (không bắt buộc) ứng viên có các chứng chỉ liên quan đến Big Data hoặc Cloud như AWS Certified Big Data - Specialty, Google Cloud Data Engineer, hoặc Microsoft Azure Data Engineer.