V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  locoz  ›  全部回复第 298 页 / 共 312 页
回复总数  6235
1 ... 294  295  296  297  298  299  300  301  302  303 ... 312  
2018-10-25 23:24:55 +08:00
回复了 qixinghaitang 创建的主题 汽车 刚刚中签了北京小汽车名额,接下来怎么操作呢?
吸欧气
2018-10-24 13:05:13 +08:00
回复了 xixiking 创建的主题 日本 马上去日本旅游了,有什么好东西推荐购买的吗
@liuyanjun0826 理论上是没啥问题的。。我去日本旅游的时候来回飞机都无意中带了两瓶喷雾上飞机,安检只是检查了带电池的东西🤔
2018-10-24 11:58:22 +08:00
回复了 xixiking 创建的主题 日本 马上去日本旅游了,有什么好东西推荐购买的吗
比较轻、贵的药妆,其他的价格大部分都差不多
2018-10-24 11:11:30 +08:00
回复了 hongwang777 创建的主题 Android 手机获得了 root 权限,能做些什么?
2018-10-23 14:28:42 +08:00
回复了 beryl 创建的主题 程序员 Java VS Py 爬虫
@beryl #6 emmm。。非常基础的东西确实是 Python 的比较多一些,但是实际上那些非常基础的东西跟语言的关系也不是很大,生态的话我不用 Java 所以不太清楚
2018-10-23 12:04:18 +08:00
回复了 ft3312591 创建的主题 Python 如何做到邮件实时收取?
邮件服务商没有提供可以推送的协议的话,就只能轮询了
2018-10-23 12:03:29 +08:00
回复了 cjj2003 创建的主题 Python 怎么嗅探 l 视频 m3u8 地址
不需要批量下载的话,idm、迅雷,或者直接右键视频下载都可以
2018-10-23 11:49:00 +08:00
回复了 beryl 创建的主题 程序员 Java VS Py 爬虫
Java 写爬虫的缺点就是要写很多冗余的代码,同样的一个爬虫 Java 要写一百多行,Python 只用十行
优点就是碰到某些特殊情况会比 Python 方便一些,比如原本在服务器上跑的爬虫要改成一个 AndroidAPP,核心部分不用动太多就能移植过去了
不过实际上语言并不关键,不同的编程语言发出的请求都是一样的,最终还是要处理反爬,这个就是单纯的分析了,跟你用的语言无关
2018-10-23 11:43:36 +08:00
回复了 yellowmarlboro 创建的主题 Python 跪求某猫列表页抓取办法, 菜鸡我要自闭了.
然后就是阿里系的东西都需要有比较高质量的 IP 才能大量爬,账号不是必须的
2018-10-23 11:42:30 +08:00
回复了 yellowmarlboro 创建的主题 Python 跪求某猫列表页抓取办法, 菜鸡我要自闭了.
给你个提示,尝试一下 H5 版本的搜索接口
2018-10-20 13:27:08 +08:00
回复了 CharlieBrown 创建的主题 Python 爬虫工程师这个岗位是否对新手很不友好
@zidian9 #37
1.这家的东西我还从来没见过有哪个网站用了的,然后官网注册接口也挂掉了,没法测试。根据网上搜到的结果来看只是做了混淆,强度还没有阿里的那么大,并不是无法破解的

2.cloudflare 的那个防 DDoS 的 js 属于最简单级别,从看操作过程到写出破解 demo 连 5 分钟都不用,提出生成参数的那部分执行一下就没别的了,里面也没塞一些会大量占用 CPU 的代码,对成本几乎无影响。你可以了解一下知道创宇和阿里的同类型产品,其实也就只是多了一些混淆、加密、document 操作、浏览器指纹、鼠标轨迹之类的东西而已,把核心部分提出来并把需要拟人的部分生成好执行一遍就完事了

3.成本问题(时间成本和金钱成本)在很多时候其实并不是什么很大的问题,需要用到大量复杂人机验证的数据,数据本身的价值也会很高。但是在使用了那么多人机验证之后服务方还要考虑如何才能不影响普通用户的使用体验,所以国内的像百度、阿里、腾讯、网易等大企业对需要进行保护的部分通常都不会设置太复杂的人机验证,而是依靠各种方式收集证据并使用法律手段来解决掉通过那些部分赚钱的灰黑产
2018-10-19 19:17:33 +08:00
回复了 benzalus 创建的主题 程序员 惊了,公司突然停电
貌似是有改动后 1-3 秒就自动保存了
写框架的时候写单元测试了,但是爬虫本身没写,毕竟给解析规则和 需要跟着对方平台的修改而修改的加密函数 写单元测试没啥意义。效果嘛。。其实也没啥感觉,框架写完之后就没怎么改动过了。
2018-10-19 19:03:30 +08:00
回复了 Deville 创建的主题 程序员 我今晚想玩游戏。。。
内容引起不适,有老婆、老婆漂亮、有两室一厅的房子
有一次在弄完了一个很复杂的加密之后,我给最后写出来的加密函数起名为 fuck_******_sign,“*”是平台名
2018-10-19 18:09:15 +08:00
回复了 CharlieBrown 创建的主题 Python 爬虫工程师这个岗位是否对新手很不友好
爬虫工程师已经是一个对新手很友好的职业了,大部分公司的需求其实都不难,需求难搞的都是那种做的事情偏灰 /黑产的
研究方向的话可以往逆向和机器学习方面发展,毕竟难搞的东西都需要这两个。尽量减少使用 headless、appium 之类的东西,毕竟很浪费资源且爬的速度慢,对技术水平也不会有太大的提升。
2018-10-19 17:53:37 +08:00
回复了 CharlieBrown 创建的主题 Python 爬虫工程师这个岗位是否对新手很不友好
@zidian9 #28
1. 如果网站的 JS 有(黑盒) uglify,读懂他的 JS 非常困难,成本非常高
你说的应该是混淆 /加密后的代码吧,如果只是简单混淆的话,有很多方式能快速找到需要的东西;如果是加密的话,不管怎么加密最终还是会需要还原出原来的代码来执行的,只需要处理一下就可以把原始代码弄出来。弄得多了之后并不需要花费多少时间就能找到需要的部分

2. 存在解不了的 JS,比如 cloudflare 动态下发的 JS (动态下发一个 JS,每次都不一样),无法破解
动态下发的 JS 都会是按一定规律生成的,毕竟最终是为了执行后生成一个加密字符串放到 cookie 或请求里,只要找到规律就破掉了

3. 就算把 JS 取出来,用 V8,node,之类的引擎去运行,也只能解决构造请求的问题。各种验证码,人机验证。IP 限制,请求频率限制的防爬手段依然难以解决。
图片验证码要么机器学习要么接打码平台靠“人工智能”的力量打码
IP 限制、请求频率限制这种无非就是堆 IP、堆账号就能解决的问题
而人机验证就是多来一步 1、2 的步骤之后加上各种拟人轨迹 /设备指纹 /浏览器指纹的生成罢了,实在不行不还有搞灰产的那种打码接口卖么

其实主要看的还是值不值得砸钱堆 IP (高质量 IP 贵)、堆账号(需要手机号接验证码 /需要实名认证 /很容易封号 的贵)、打码(大量打码的情况下贵、人机验证搞不定的情况下用别人的打码接口贵)
2018-10-19 17:01:10 +08:00
回复了 bertsir 创建的主题 Android 这是 QQ 调皮了还是知乎调皮了
2018-10-19 16:58:28 +08:00
回复了 xssp 创建的主题 互联网 一种加密方式,没看懂是啥加密的,大佬们帮忙看看
这种没有特征的东西光看加密后的字符串没法看出到底是什么,直接把网站 /APP 名发出来吧
1 ... 294  295  296  297  298  299  300  301  302  303 ... 312  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   935 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 68ms · UTC 19:17 · PVG 03:17 · LAX 12:17 · JFK 15:17
Developed with CodeLauncher
♥ Do have faith in what you're doing.