Xây dựng và vận hành hệ thống Data Warehouse (DWH)
Thiết kế, phát triển và vận hành hệ thống DWH
phục vụ lưu trữ và quản trị dữ liệu tập trung.
Thiết kế mô hình dữ liệu và Data Mart phục vụ khai thác dữ liệu cho các hệ thống downstream.
Xây dựng
kiến trúc dữ liệu đảm bảo khả năng mở rộng, ổn định và hiệu năng cao.
Phát triển pipeline dữ liệu
Xây dựng và vận hành các pipeline ETL/ELT lấy dữ liệu từ nhiều nguồn:
RDBMS (Oracle, PostgreSQL, MSSQL, MySQL...)
MongoDB
API
File batch
Streaming source
Thiết kế cơ chế đồng bộ dữ liệu batch, incremental hoặc near realtime.
Xây dựng cơ chế CDC và đồng bộ dữ liệu giữa hệ thống nguồn và DWH.
Tự động hóa quy trình xử lý và đồng bộ dữ liệu.
Làm sạch và chuẩn hóa dữ liệu
Thực hiện cleansing, transform và chuẩn hóa dữ liệu từ nhiều nguồn khác nhau.
Mapping dữ liệu giữa hệ thống transactional và DWH.
Xử lý dữ liệu lỗi, trùng lặp, thiếu dữ liệu hoặc không đồng nhất.
Xây dựng các rule kiểm tra chất lượng dữ liệu (Data Quality).
Tổng hợp dữ liệu
Xây dựng các bảng aggregate/fact phục vụ khai thác dữ liệu.
Thiết kế và tối ưu logic xử lý dữ liệu khối lượng lớn.
Tối ưu hiệu năng query, partitioning và indexing.
Vận hành & tối ưu hệ thống
Monitoring và xử lý lỗi pipeline/ETL job.
Phân tích và xử lý sự cố liên quan đến dữ liệu.
Thực hiện reconciliation giữa dữ liệu nguồn và DWH.
Đảm bảo SLA và tính ổn định của hệ thống dữ liệu.