Mô tả công việc
Tham gia vào việc xây dựng, tối ưu hóa và vận hành hệ thống hạ tầng dữ liệu quy mô lớn, phục vụ cho các bài toán phân tích chuyên sâu và AI:
Xây dựng & Tối ưu Pipeline dữ liệu: Thiết kế, phát triển và duy trì các đường ống thu thập, xử lý dữ liệu (ETL/ELT) thời gian thực (Real-time) và theo lô (Batch) từ nhiều nguồn khác nhau (RDBMS, NoSQL, API, Log...) vào hệ thống Lakehouse.
Tối ưu hóa truy vấn phân tán: Cấu hình, quản lý và tối ưu hóa hiệu năng cụm Trino. Thiết lập các kết nối để thực hiện ảo hóa dữ liệu (Data Federation), giúp người dùng truy vấn xuyên suốt qua nhiều nguồn dữ liệu khác nhau mà không cần dịch chuyển dữ liệu vật lý.
Triển khai hệ thống tự động thu thập và đồng bộ siêu dữ liệu (Metadata), quản lý lược đồ (Schema Registry/Catalog) và xây dựng bản đồ dòng chảy dữ liệu (Data Lineage).
Thiết kế, chuẩn hóa và hợp nhất dữ liệu từ nhiều hệ thống nguồn để xây dựng kho dữ liệu chủ (Master Data Management - MDM), tạo ra bộ dữ liệu định danh duy nhất (Golden Records) cho toàn tổ chức.
Thiết kế & Tối ưu lưu trữ Lakehouse: Triển khai các định dạng bảng hiện đại (như Apache Iceberg,
Delta Lake) trên nền tảng lưu trữ phân tán (HDFS/Object Storage), đảm bảo tính toàn vẹn dữ liệu.
Quản trị và Vận hành: Phối hợp triển khai và vận hành các thành phần dữ liệu cốt lõi trên môi
trường Kubernetes (K8s).
Đảm bảo chất lượng dữ liệu (Data Quality): Xây dựng các framework tự động kiểm tra,
giám sát chất lượng dữ liệu và cảnh báo sự cố khi có lỗi logic hoặc sai lệch dữ liệu xảy ra trên pipeline.
Yêu cầu
Yêu cầu chung
Tốt nghiệp Đại học Chính quy loại Khá trở lên, chuyên ngành Công nghệ thông tin, Điện
- tử viễn thông, Hệ thống thông tin quản lý, Khoa học máy tính... thuộc khối ngành CNTT.
Tiếng Anh tối thiểu TOEIC 550/990 (Chưa yêu cầu có bằng khi tuyển dụng đầu vào).
Yêu cầu cụ thể
Kinh nghiệm: Tối thiểu 3 năm làm việc trong lĩnh vực Data Engineering, có kinh nghiệm thực tế với
kiến trúc Data Lake hoặc Data Lakehouse.
Big Data Stack: Thành thạo các công cụ tính toán phân tán và streaming dữ liệu: Apache Spark (PySpark/Scala/Java), Apache Kafka, Apache NiFi.
Orchestration & DevOps: Có kinh nghiệm sử dụng Apache Airflow để điều phối luồng công việc.
Hiểu biết tốt về Kubernetes (K8s), biết cách cấu hình, tối ưu hóa ứng dụng Big Data qua Helm charts là một lợi thế lớn.
Storage & Format: Hiểu sâu về cơ chế lưu trữ phân tán (HDFS, Object Storage) và các định dạng bảng lưu trữ thế hệ mới (Apache Iceberg, Delta Lake).
Cơ sở dữ liệu & Ngôn ngữ: Thành thạo SQL (tối ưu hóa truy vấn phức tạp) và ít nhất một ngôn ngữ lập trình: Python, Java hoặc Scala.
Tư duy Kiến trúc: Có hiểu biết về các mô hình kiến trúc dữ liệu hiện nay như Data Mesh, Data Federation, Data Fabric.
Quyền lợi
Mức thu nhập cạnh tranh và các khoản lương 6 tháng/năm/ hiệu quả SXKD.
Gói phúc lợi 1500$ năm bao gồm thưởng Tết, thưởng các ngày lễ và nghỉ dưỡng.
Nâng cao năng lực qua các khóa đào tạo chuyên sâu, hỗ trợ học và thi chứng chỉ chuyên môn nghiệp vụ.
Xem xét nâng lương tối thiểu 1 năm 1 lần. Tiếp cận với những cơ hội thăng tiến hấp dẫn.
Chế độ 12 ngày nghỉ lễ, 12 ngày nghỉ phép và 3 ngày nghỉ dưỡng hàng năm.
Tham gia gói bảo hiểm Bảo Việt chăm sóc sức khỏe toàn diện.
Được thư giãn, khơi nguồn sáng tạo với Happy Time mỗi ngày, không gian làm việc hiện đại.
Thưởng thức bữa trưa thơm ngon, được chọn lọc bởi các chuyên gia dinh dưỡng.
Làm việc trong các dự án trọng điểm của Tập đoàn với quy mô hệ thống lớn.
Trải nghiệm sự đa văn hóa khi làm việc với nhân sự của Viettel tại hơn 10 quốc gia.
Bảo hiểm sức khỏe, Bảo hiểm sức khỏe ngưởi thân, Team building
Thông tin khác
Thời gian làm việc
Thứ 2 - Thứ 6 (từ 08:30 đến 18:00)
Thông tin chung
Nơi làm việc
- - Hà Nội: EPIC Tower, 19 Duy Tân, Phường Cầu Giấy (quận Cầu Giấy cũ)
Cách thức ứng tuyển
Ứng viên nộp hồ sơ trực tuyến bằng cách bấm nút Ứng tuyển bên dưới:
Hạn nộp: 10/08/2026