岗位职责:
1. 参与开发和优化分布式爬虫系统;
2. 实时监控爬虫的进度和预警处理;
3. 负责持续跟踪分析爬虫系统的技术缺陷,对策略架构做出合理地调整和改进,提升公司相关产品与服务的竞争力。
任职要求:
1. 熟练使用python/java语言,进程、线程;
2. 熟练使用 mongo,redis,mysql 等数据库;
3. 熟练使用常见爬虫框架(xpath/scrapy/scrapy-redis/pyspider等;
4. 能处理常见反扒问题能力(代理/app抓包/web反扒);
4. 有较好的逻辑思维及良好的代码习惯;
5. 掌握基本数据结构和算法,能够灵活使用编程技巧和设计模式等相关知识;
6. 具备爬虫程序架构设计能力、模块化设计能力;
7. 有使用过 kafka/docker/ES等技术者优先;
8. 有分布式爬虫系统设计、工程化和运维经验者优先;
9. 有两年及以上爬虫经验。