熟悉 scrapy+scrapy-redis 组件来实现增量式及分布式爬虫,对目标网站进行大规模爬取后存入 Mysql 数据库;
实现异步多任务爬取,单次爬取全站,更新周期为月度或者季度
熟悉处理网站的各种反爬(验证码、代理池等);
有 3 年以上大量数据的爬取开发经验
熟悉 xpath 、RE 、str 方法对数据进行抽取与清洗
熟悉 redis 及 Mysql 数据的存入
良好的编码能力(代码架构/注释)、良好的学习能力(业务沟通及理解)、分析问题解决问题的能力(突破反爬);
vx(base64):ODUwNzc5NDk1IA==