bobobo80 最近的时间轴更新
bobobo80

bobobo80

V2EX 第 177525 号会员,加入于 2016-06-15 13:23:26 +08:00
根据 bobobo80 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
bobobo80 最近回复了
赞一个,感谢内推
2019-06-11 14:27:46 +08:00
回复了 zhangslob669 创建的主题 求职 求职:两年爬虫经验
@zhangslob669 d3Viby5pQGJ5dGVkYW5jZS5jb20= 宇宙条感兴趣吗?
2019-06-05 11:33:03 +08:00
回复了 bobobo80 创建的主题 酷工作 [招聘][北京][字节跳动]抓取/后端工程师
@CEBBCAT 也招实习的,可以来试试
2019-03-06 23:46:00 +08:00
回复了 okzpy9425 创建的主题 酷工作 求工作[北京 Python ]
d3Viby5pQGJ5dGVkYW5jZS5jb20= 宇宙条感兴趣吗?
2019-03-06 23:42:53 +08:00
回复了 testphase 创建的主题 职场话题 在德国的中年码农 迷茫
国内晚上 11 点半可能才下班回家
2018-09-11 20:01:54 +08:00
回复了 kidlfy 创建的主题 Python 有人做过基于多个打码平台的验证码识别的服务吗?
@kidlfy 多平台同步,不就是爬虫的并发请求嘛,开几个协程或线程同时调用各个打码平台的 api 就可以。打码出错处理看你怎么个策略了,多个平台的结果不一样时怎么取值等,这就是业务逻辑了。
2018-09-11 14:21:00 +08:00
回复了 kidlfy 创建的主题 Python 有人做过基于多个打码平台的验证码识别的服务吗?
看起来是要做一个接口服务,一方面提供自行识别验证码的服务,一方面作为中转,将请求代理到各个打码平台。对于自己识别,大原理上就是接收图片,然后调用模型识别。对于转发,就是统一一下接口输入的参数和格式,把各个打码平台需要的参数适配一下,转发请求。
这个服务算是响应比较慢的了,建议使用异步的框架,里面还要转发请求,那么自带 server 和 client 的 aiohttp 比较合适了。识别的话,接触不多,之前用 tesseract 效果并不好,图片规律且有一定样本的话 tenseflow 调包训练一下效果就不错。
selenium 应该是没有办法返回类似 requests 的 status_code 的,所以需要自己来判断一下返回页面中是否包含正常的元素,elem = driver.find_element_by_id("XXX")。需要试出一些验证码,429,404 等页面的状态,加入状态判断。
2018-08-13 09:39:54 +08:00
回复了 bobobo80 创建的主题 程序员 不同源商品名匹配应该如何处理?
@coeo91 手工一个个指定吗?那工作量好大吧。
2018-05-04 13:28:26 +08:00
回复了 bobobo80 创建的主题 酷工作 [北京][招聘][人人车] 初/高级爬虫(抓取)工程师
@tuzigg 暂不支持
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2792 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms · UTC 07:42 · PVG 15:42 · LAX 23:42 · JFK 02:42
Developed with CodeLauncher
♥ Do have faith in what you're doing.