Mô tả công việc
- Quản trị Hạ tầng Container & Cloud:
- Thiết kế, triển khai và quản trị các cụm Kubernetes (K8s), đặc biệt là Amazon Elastic Kubernetes Service (EKS) hoặc Google Kubernetes Engine (GKE).
- Cấu hình và tối ưu hóa Autoscaling (Horizontal Pod Autoscaler - HPA, Cluster Autoscaler) để hệ thống tự động co giãn theo lưu lượng request, thực tế, đảm bảo chi phí tối ưu (Cost Optimization).
- Model Serving & Deployment:
- Đóng gói các mô hình AI/Deep Learning (Dockerizing) và triển khai lên môi trường Production.
- Lựa chọn và cấu hình các công cụ Model Serving hiệu năng cao (nhưTensorFlow Serving, TorchServe, Triton Inference Server) để tối ưu độ trễ (latency) và thông lượng (throughput).
- Xây dựng CI/CD cho ML:
- Xây dựng pipeline CI/CD (sử dụng Jenkins, GitLab CI, GitHub Actions...) cho việc huấn luyện (training), đánh giá (evaluation) và triển khai (deployment) mô hình tự động.
- Giám sát & Vận hành (Monitoring & Observability):
- Thiết lập hệ thống giám sát sức khỏe hạ tầng và mô hình (Prometheus, Grafana, ELK Stack).
- Theo dõi các chỉ số quan trọng: CPU/GPU usage, Memory, Latency, và Model Drift (sự suy giảm độ chính xác của mô hình theo thời gian).
- Hỗ trợ đội ngũ AI: Phối hợp với
AI Engineers để chuẩn hóa môi trường pháttriển, đảm bảo tính nhất quán từ Local đến Production.
Yêu cầu
* Kiến thức chuyên sâu về Container & Orchestration (Bắt buộc)
- Có kinh nghiệm thực chiến (Hands-on) vận hành hệ thống Kubernetes (K8s).
- Thành thạo EKS/GKE/AKS. Hiểu rõ cơ chế Node Pools, Ingress, Service Mesh (Istio/Linkerd).
- Kinh nghiệm viết Helm Charts để quản lý các gói ứng dụng trên K8s.
- Hiểu sâu về Docker: Tối ưu Dockerfile, Multi-stage builds để giảm kích thước image.
* Kiến thức về Cloud & Infrastructure as Code (IaC)
- Thành thạo ít nhất một nền tảng Cloud lớn (ưu tiên AWS, hoặc GCP).
- Kinh nghiệm sử dụng Terraform hoặc Ansible để khởi tạo và quản lý hạ tầng (IaC).
* Kỹ năng Lập trình & Scripting
- Thành thạo ngôn ngữ kịch bản: Bash/Shell script, Python (để viết automationm scripts và API wrapper đơn giản).
- Hiểu biết cơ bản về Backend (RESTful API, gRPC) để tích hợp mô hình vào hệ thống.
* Kiến thức về MLOps & AI (Điểm cộng lớn)
- Hiểu quy trình phát triển AI (Training -> Validation -> Inference).
- Kinh nghiệm với các công cụ MLOps: MLflow, Kubeflow, Airflow.
- Kinh nghiệm làm việc với GPU Computing (CUDA, NVIDIA Drivers trên K8s).
Quyền lợi
Lương 3P: Lên tới 35tr VNĐ/tháng;
Thưởng tháng 13 (tùy từng thời điểm kinh doanh của Công ty);
Phúc lợi: Gói phúc lợi 11.000.000 VNĐ/ năm, Chính sách phúc lợi nhân viên;
Thưởng hiệu quả công việc: sáng tạo, thành tích... và các loại thưởng khác;
Đảm bảo đầy đủ các chế độ BHXH, BHYT, BHTN... theo quy định của Luật lao động và theo quy định của Công ty;
Được trực tiếp giải quyết bài toán "Scale" hệ thống AI cho hàng triệu người dùng, xử lý Big Data và Real-time processing.
Môi trường chuyên nghiệp, sáng tạo, cởi mở, trẻ trung;
Làm việc từ thứ 2 đến thứ 6, thứ 7 (Online) cách tuần (8:15 - 17:30 hoặc 8:45 - 18:00 hàng ngày);
Địa chỉ làm việc: Tầng 15, tòa nhà Ngọc khánh Plaza, Số 1 Phạm Huy Thông, Ngọc Khánh, Ba Đình, Hà Nội
Thông tin khác
Loại công việc
Nhân viên toàn thời gian
Cấp bậc
Nhân viên
Học vấn
Kỹ sư
Kinh nghiệm
1 - 2 năm kinh nghiệm
Giới tính
Bất kỳ
Ngành nghề
CNTT - Phần mềm
Thông tin chung
Nơi làm việc
Cách thức ứng tuyển
Ứng viên nộp hồ sơ trực tuyến bằng cách bấm nút Ứng tuyển bên dưới:
Hạn nộp: 27/04/2026