岗位职责:
1.负责数据中心的数据采集与爬取、解析处理、入库及备份等数据日常工作;
2.负责数据的清洗、整理、整合及合并等工作;
4.参与需求分析及设计文档、代码的编写;
5.根据工作安排,能按时按质完成需求。
任职要求:
1、负责数据采集,维护和改进现有的爬虫代码,研究网站反爬虫机制,做到有效应对;
2、设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;
3、熟悉linux平台,有两年以上Python编程经验;
4、熟悉Scrapy, XPath、正则表达式原理等;
5、具有优秀的团队合作和沟通协作能力,善于学习,乐于分享,能承受较大工作压力;
6、理解Web等数据抓取的工作原理及流程,有实际数据抓取经验;
7、熟练使用Mysql/MongoDB/Redis等数据库或队列。