Mô tả công việc
Tóm tắt công việc
Phát triển và duy trì hệ thống thu thập dữ liệu lớn từ nhiều nguồn web đa dạng.
Làm việc song song trên 2 stack:
Browser-based automation (Playwright / Camoufox / headless browser): xử lý các nguồn yêu cầu render JS, tương tác DOM, vượt anti-bot
API-based scraping (Scrapy / Twisted asynchronous): xử lý các nguồn cung cấp endpoint nội bộ / public API
Tích hợp pipeline streaming nội bộ (message queue, distributed cache, credential management service) để output dữ liệu real-time
Phát triển, debug, optimize crawler cho 5-6 nguồn dữ liệu
Maintain framework scraping nội bộ (đóng góp shared library)
Xử lý các kỹ thuật chống bot: rotation, fingerprint, CAPTCHA, auth-wall, rate-limit
Đóng góp vào CI/CD pipeline + monitoring + alerting
Hỗ trợ điều tra incident production
Mức lương 30tr/ tháng ++, thỏa thuận theo năng lực
Lương tháng 13, thưởng kinh doanh, thưởng lễ Tết, 20/10, 8/3, sinh nhật,...Gói thu nhập từ 14 tháng lương
Làm việc trong một môi trường trẻ trung, năng động, có cơ hội học hỏi; làm việc T2-T6 hàng tuần.
Tham gia đóng BHXH, BHYT, BHTN theo quy định của Luật, Bảo hiểm sức khỏe PTI
Được hưởng các phúc lợi của công ty như: khám sức khỏe định kỳ hàng năm, nghỉ mát 1 lần/năm, team building ít nhất 1 lần/năm, thăm hỏi ốm đau, hiếu hỉ, thai sản...
Xem xét tăng lương 2 lần/năm.
Yêu cầu
Python 3.11+ asyncio production ≥ 2 năm
Đã làm browser automation production (không phải tutorial) - có thể kể 1 case xử lý anti-bot thực tế
HTTP/HTML/CSS selector/XPath thành thạo
Git, Docker, Linux command line
Tự debug khi crawler đột nhiên fail (do platform đổi cấu trúc)
Đọc/viết
tiếng Anh kỹ thuật ổn
Thông tin khác
Python
HTML
Apache Kafka
CSS
Linux
XPath
Git
HTTP
Docker
Twisted
Thông tin chung