V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
sofasky
V2EX  ›  Python

[招聘] Python 抓取爬虫数据处理工程师

  •  
  •   sofasky · 2016-11-16 18:44:28 +08:00 · 3301 次点击
    这是一个创建于 2961 天前的主题,其中的信息可能已经有所发展或是发生改变。
    岗位职责:

    1 、负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析,按要求抓取金融数据;
    2 、负责网页信息 /APP 数据抽取、数据清洗、数据消重等研发和优化工作,包括爬虫、调度、信息提取、信息存储等,提升平台的抓取效率;
    3 、参与爬虫核心算法和策略优化,熟悉采集系统的调度策略;
    4 、实时监控爬虫的进度和警报反馈;

    任职要求:

    1 、熟悉 Linux 系统,熟悉 Java 或者 Python ;
    2 、熟悉网页抓取原理及技术,熟悉基于正则表达式、 XPath 、 CSS 等网页信息抽取技术,熟悉基于 Cookie 的登录原理;
    3 、熟悉 APP 模拟及接口验签破解技术,熟悉 APP 用户授权访问机制及模拟;
    4 、熟悉多线程、多进程、网络通信编程相关知识;
    5 、熟悉 Selenium 优先,熟悉 APP 破解技术优先。
    6 、有分布式爬虫架构,数据挖掘经验优先。
    7 、对数据敏感,做过数据处理相关工作者优先,做过 ETL 工作者优先;
    7 条回复    2016-11-22 14:44:14 +08:00
    sofasky
        1
    sofasky  
    OP
       2016-11-16 18:47:19 +08:00
    有没有意向的欢迎加 QQ : 1258083995 细聊

    工作地点北京三元桥
    tumbzzc
        2
    tumbzzc  
       2016-11-16 18:59:33 +08:00
    我觉得我可以试一番
    sofasky
        3
    sofasky  
    OP
       2016-11-16 19:03:50 +08:00
    @tumbzzc 好啊,你的联系方式是?
    tumbzzc
        4
    tumbzzc  
       2016-11-16 19:07:25 +08:00
    @sofasky ( ⊙ _ ⊙ )说笑啦,刚参加工作不好辞职
    sofasky
        5
    sofasky  
    OP
       2016-11-16 19:10:51 +08:00
    @tumbzzc 哈哈,没关系。有朋友做这块的也可以推荐下
    linuxzpf
        6
    linuxzpf  
       2016-11-16 22:18:28 +08:00 via Android
    瞄了两眼,岗位职责就是我现在工作的一部分,我是爬取各大 P2P 平台的数据,实时同步,互联网金融。
    yanzixuan
        7
    yanzixuan  
       2016-11-22 14:44:14 +08:00
    @sofasky 可以远程工作么?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4518 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 04:04 · PVG 12:04 · LAX 20:04 · JFK 23:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.