V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  llsquaer  ›  全部回复第 10 页 / 共 11 页
回复总数  202
1 ... 2  3  4  5  6  7  8  9  10  11  
2020-06-13 10:58:47 +08:00
回复了 llsquaer 创建的主题 问与答 爬虫查重复,数据库占 cpu 超高,怎么解决呢?
@sadfQED2 用默认的,还不知道怎么建立索引, 我先去研究下...还有布隆过滤器 ..谢谢.
2020-06-13 10:57:54 +08:00
回复了 llsquaer 创建的主题 问与答 爬虫查重复,数据库占 cpu 超高,怎么解决呢?
@njshiyanhz 总共 6 个字段,分析了 6 个字段必须要同时查,,不然会出现某个字段是重复,其他不重复的情况,,会跳过一部分内容,,MongoDB 用的默认的配置,,没研究过怎么建立索引..我去研究下...谢谢..
2020-05-14 11:40:22 +08:00
回复了 crella 创建的主题 Python 为什么爬虫大佬多用 re 而少用 soup、xml 来提取元素?
前段时间刚好将 xpath 改为 re....发现效率突然提升不少呢...原来不用 re 就是写不好啊..后来熟练点了.发现原来是没理解到 re 所以没用..现在发现普通的就直接 re,速度又快..混合使用提高效率
2020-05-14 11:32:32 +08:00
回复了 GTD 创建的主题 Python 问一个 Python 的简单语法区别, for i in list 和 for i in range 的区别?
for i in list:
print('i') 表示遍历列表,并打印 i 的值( 比如 a b c d).你的案例看不出区别

for i in range(len(list)):
print('i') 表示遍历的次数,并打印迭代后的数值

当然 你问题 有 list 和 range ...list 是列表,,而 range 简单理解为计数用的.
@systemcall 先买个移动硬盘盒子用用看看效果.买虚拟感觉效率不得行呢.老电脑了
2020-05-10 21:39:16 +08:00
回复了 mulandidi 创建的主题 Python Python 小白, 请教各位大佬一个如何能够优化这个方法?
没明白你具体..如果计算其中三行 某列的数据,直接取 index 就行了啊..100w 数据也是毫秒的事情..还用什么循环?
@passerbytiny Chrome 就要全盘扫描..不过就第一次要扫描,开启后不关没问题..关了重新开又会扫描..这个不能不用啊.
@Osk 请问完整的怎么写呢? 不会脚本啊. ..有个开关脚本是好多了..手动太麻烦.
@lmmortal 这个可以啊..脱机挺好用的..怎么样批量操作呢? 有个批处理好了.
@DOLLOR 这样写出来源码直接暴露在外面的..学了一段时间 vue..但是他们打包过后的源码直接就看不懂了.
2020-05-05 11:46:37 +08:00
回复了 Colorful 创建的主题 Python 请教个关于爬虫的二级页面的问题
我也是用 MongoDB 存的 html,是没有问题..但可能遇到过和楼主的情况..

但是有可能你爬的第某个字节是 bytes 类型,(具体原因我也不太明白)
记得有一次爬什么网站遇到过,打死存不进去..直接数据库报错.. 你在存入之前,手动加 str()
你最好把错误码贴出来.
2020-05-05 11:39:02 +08:00
回复了 Colorful 创建的主题 Python 请教个关于爬虫的二级页面的问题
@yuzo555 原来上 V2EX 是需要技巧的..哈哈
2020-05-05 11:36:10 +08:00
回复了 qianyealone 创建的主题 Python Python 文本采集替换图片的问题
@ClericPy 谢谢...我还在研究正则.一直用不好,之前做这种图片本地化是 自己手写的一个函数替换的.你这样更简单了.
2020-05-04 10:19:33 +08:00
回复了 qianyealone 创建的主题 Python Python 文本采集替换图片的问题
@ClericPy 直接复制你的代码 测试的..没变化啊 我用的 python3.6
2020-04-29 10:40:30 +08:00
回复了 huan1043269994 创建的主题 Python 爬虫养成记--千军万马来相见(详解多线程)
一个事情请教..线程安全的吗? 之前也用多线程..不想去手动加锁,,所以直接用的 queue 队列...你这种写法感觉更爽一些..但是还不明白其中的原理. 举个例子: 比如下载图片,他会自动加载 100 个线程?(图片有 100 个链接的情况)
加不加无所谓,,但是最后会 Ctrl+Atl+L ...
2020-04-14 11:47:18 +08:00
回复了 llsquaer 创建的主题 问与答 iPhone 莫名其妙被异地登录..密码怎么泄露的?
@doudoubeng 哈哈哈,没有山东那边的女朋友.
2020-04-14 11:46:08 +08:00
回复了 llsquaer 创建的主题 问与答 iPhone 莫名其妙被异地登录..密码怎么泄露的?
@delectate 不清哇..没有泄露密码的途径啊..改密码也是手机上完成的,没有在电脑上操作.
2020-03-27 13:22:45 +08:00
回复了 sgissb1 创建的主题 问与答 有没有离线编辑/发布的 wordpress 工具,求推荐
还别说,之前想批量导入 WordPress..但是不会..我初学..就用 python.. 导入 wordpress_xmlrpc.网上有教程.不复杂.
1 ... 2  3  4  5  6  7  8  9  10  11  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   797 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 26ms · UTC 19:49 · PVG 03:49 · LAX 12:49 · JFK 15:49
Developed with CodeLauncher
♥ Do have faith in what you're doing.