1. Mô tả công việc
• Tham gia thiết kế, xây dựng và tối ưu
kiến trúc hạ tầng Cloud
phục vụ các dịch vụ Compute, Storage, Network và nền tảng số của công ty.
• Triển khai, vận hành và nâng cấp các hệ thống private cloud, virtualization, container platform như Kubernetes, Docker, OpenStack.
• Tối ưu hiệu năng hệ thống: CPU, RAM, Disk IOPS, Network throughput, latency, khả năng mở rộng (scale-up / scale-out).
• Thiết kế giải pháp High Availability (HA), Disaster Recovery (DR), backup và đảm bảo tính liên tục dịch vụ.
• Quản trị, tối ưu hệ thống lưu trữ phân tán như Ceph, Object Storage, Block Storage, File Storage.
• Xây dựng hệ thống monitoring, alerting, logging, observability phục vụ quản trị vận hành.
• Thực hiện capacity planning, dự báo tài nguyên và đề xuất mở rộng hạ tầng theo tăng trưởng dịch vụ.
• Tham gia xây dựng nền tảng dữ liệu (Data Platform) phục vụ lưu trữ, xử lý và phân tích dữ liệu lớn.
• Nghiên cứu, triển khai hạ tầng AI/ML: GPU Server, AI training, inference platform, private AI cloud.
• Phối hợp cùng các team Product, Development, Security, Operations để triển khai dịch vụ mới.
• Chuẩn hóa tài liệu kỹ thuật, quy trình triển khai, vận hành và xử lý sự cố.
• Chủ động nghiên cứu công nghệ mới, đề xuất cải tiến kiến trúc, tối ưu chi phí đầu tư và vận hành.
2. Yêu cầu ứng viên
• Có kinh nghiệm về hạ tầng Cloud, System, Platform hoặc Data Center.
• Nắm vững Linux, network, server hardware, virtualization.
• Có kiến thức hoặc kinh nghiệm với Kubernetes / Docker / OpenStack.
• Có hiểu biết về storage, backup, HA, DR.
• Có khả năng phân tích sự cố, troubleshooting và tối ưu hiệu năng hệ thống.
• Có tư duy hệ thống tốt, khả năng học nhanh và chủ động trong công việc.
• Có khả năng đọc hiểu tài liệu kỹ thuật
tiếng Anh.
3. Ưu tiên
• Kinh nghiệm với Ceph hoặc các hệ thống distributed storage.
• Kinh nghiệm Data Platform: Kafka, Spark, ClickHouse, Hadoop, Elasticsearch.
• Kinh nghiệm GPU / AI Infrastructure / MLOps / LLM Serving.
• Biết scripting hoặc automation: Bash, Python, Ansible, Terraform.
• Từng tham gia triển khai hệ thống quy mô lớn hoặc multi-tenant cloud.
4. Thu nhập
• Cạnh tranh theo năng lực và kinh nghiệm.