V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Lateautumn  ›  全部回复第 2 页 / 共 3 页
回复总数  54
1  2  3  
@andylsr 老哥,已发
@dezhou9 兄弟什么方向的
@est 老哥牛比阿
这个 github 之前也关注过,确实很优秀,不过我觉得还是内容比较少,一些方法也是比较旧了,所以希望有个 organizations 来让大家更加能够及时获取这些前沿的反爬手段以及对应的解决方案
@CharlieBrown 老哥,已经邀请了,点击这个网址接受就好了 https://github.com/AntiCrawlerSolution
@CharlieBrown 好的,
@37Y37 这个应该这么说,我们只是交流想法,具体爬的话不是得对应到具体人,具体公司吗,这个我们就不管了,大家都是为了技术嘛
悬赏 100,兄弟们呢
2018-10-24 13:20:04 +08:00
回复了 syoubaku 创建的主题 程序员 怎么才能加入 V2EX 的 github 项目组?
向加入 java --- lateautunm
lateautunm 多谢
@dorothyREN 这个是两个问题,( 1 ) Q:怎么验证有效性; A:若是抓取的 IP 有有效时间根据有效时间来判断,如果没有,则是根据比较大众的方法,采用将 IP 作为代理去访问网站看是不是连接的上( 2 )多长时间验证一次有效性:这个时间间隔主要也是考虑到有些网站的 IP 会显示最后验证时间,所以根据这个来判断, 我会将这个时间设置为 1 分钟。
有个很严重的问题就是 IP 数量非常大的时候,以每分钟去验证 IP 会有难度,这个我觉得以后也是一个有优化空间的点。
@SpiderXiantang 对,就是因为网络上爬来的 IP 数据格式比较乱,可用性比较低,才更需要实时,快速准确的识别有效的 IP,所以对于这个项目来说,最重要的也就是关于大数据方面的处理,这个可能以后需要更加精准的优化,目前来说只是希望用 kafka 做个实时流处理。
@munn 没有没有,辣鸡一只
请问工作两年大概是什么评级
不知道你是想先什么方向的,python 这么多方向说具体点比较好。
工资的话你的水平在成都这个价钱我觉得差不多,来北京的话如果真的像简书那样全了解的话 15 左右,平均来看。看你的简历里面如果你想做爬虫的话,感觉希望你能多了解一些比较新的东西,以及自己写个爬虫框架,然后使用 webdriver 这些东西来做爬虫的话很让人怀疑你的深度,举个例子比如知乎,接口登陆我觉得就挺好研究的,面试的时候跟面试官探讨也挺好的。相比较来说我觉得你可能更适合全栈,因为看你的项目也是 web 方面比较多,不过应该算是处理水平,看你接触 docker 以及完整的项目经验还是比较少的,继续努力!
1  2  3  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1073 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 34ms · UTC 19:13 · PVG 03:13 · LAX 12:13 · JFK 15:13
Developed with CodeLauncher
♥ Do have faith in what you're doing.