V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  a65420321a  ›  全部回复第 1 页 / 共 2 页
回复总数  24
1  2  
2021-02-26 15:05:07 +08:00
回复了 a65420321a 创建的主题 程序员 这个网站是怎么做的访问限制?
@nekobest
@reed2020
@Jasmine2016
@dingwen07
好吧,这么看来是 ip 本身的问题了,这倒是好解决了
谢谢各位大佬
2021-02-26 12:01:17 +08:00
回复了 a65420321a 创建的主题 程序员 这个网站是怎么做的访问限制?
@lsvih 啊?普通的海外代理可以直接访问吗?为什么我挂 v 皮恩不行呢
2020-07-13 09:54:38 +08:00
回复了 a65420321a 创建的主题 Python scrapy 如何在多个模块里共用一个数据库连接池
@Kobayashi
看过的~你们说 pipeline 让我以为 middleware 可以调 pipeline 来着。。。
2020-07-10 10:38:37 +08:00
回复了 a65420321a 创建的主题 Python scrapy 如何在多个模块里共用一个数据库连接池
@Kobayashi
。。。pipeline 里面可以给 request 加代理吗?
2020-07-09 19:49:47 +08:00
回复了 a65420321a 创建的主题 Python scrapy 如何在多个模块里共用一个数据库连接池
@Kobayashi
我之前一直在纠结,怎么在 spider 里面直接调用 pipeline 的 redis 链接,没有相通,最后我是在 spider 里面声明了 redis 连接池,在 pipeline 和 middleware 通过 spider 参数直接调用 redis 链接
现在看下来,在 pipeline 的 open_spider 中声明 redis 链接,在 spider 里面把需要筛选的东西处理成不同的 item,通过 pipeline 的 process_item 调用 redis 链接。。
我没理解错吧?
可是,如果这样的话,我需要在 middleware 里使用代理,也要用到 redis,这又要怎么搞。。。
2020-07-08 20:25:26 +08:00
回复了 a65420321a 创建的主题 Python scrapy 如何在多个模块里共用一个数据库连接池
@996635

额,你说的钩子指的是哪些?

数据库链接搞定了
在 spider 下__init__构建了 self.pool 和 self.conn
然后在 pipeline 里通过 process_item 中的 spider 参数调用 spider.conn 可以复用数据库链接
middleware 同样是通过 process_request 的 spider 参数

话说,为啥我搜出来的都是说在 pipeline 下的 open_spider 里创建数据库链接,这样的话别的地方通过什么方式调用呢?
2020-07-08 18:36:33 +08:00
回复了 a65420321a 创建的主题 Python scrapy 如何在多个模块里共用一个数据库连接池
@zdnyp


from .settings import ITEM_KEY
import json, redis

class RedisPipeline:

def __init__(self, redis_host, redis_port, redis_db):
self.redis_host = redis_host
self.redis_port = redis_port
self.redis_db = redis_db

@classmethod
def from_crawler(cls, crawler):
return cls(
redis_host=crawler.settings.get('REDIS_HOST'),
redis_port=crawler.settings.get('REDIS_PORT'),
redis_db=crawler.settings.get('REDIS_DB')
)

def open_spider(self, spider):
self.pool = redis.ConnectionPool(host=self.redis_host,
port=self.redis_port,
db=self.redis_db)
self.conn = redis.StrictRedis(connection_pool=self.pool)
print('#### pipelines.open_spider')

def close_spider(self, spider):
pass

def process_item(self, item, spider):
self.conn.rpush(ITEM_KEY, json.dumps(item))
return item



这样没错吧?
我没搞懂的是,在 middleware 和 spider 里面要怎么调用这个 self.conn 呢?
2020-06-16 19:44:22 +08:00
回复了 guoqing4396 创建的主题 程序员 想搞一个免费看小说的 app,大家觉得需要有哪些功能点?
老哥们,视频 app 有没有类似阅读的
2020-06-10 09:36:00 +08:00
回复了 a65420321a 创建的主题 Python 动态变化的 js 如何逆向
@joesonw 太慢了。。。
2020-06-10 09:35:29 +08:00
回复了 a65420321a 创建的主题 Python 动态变化的 js 如何逆向
@takemeaway 之前是下载他的 js 运行的,不晓得什么情况现在不通。。
2020-06-10 09:35:05 +08:00
回复了 a65420321a 创建的主题 Python 动态变化的 js 如何逆向
@wnpllrzodiac 不是~我们做行研的
2020-06-10 09:34:37 +08:00
回复了 a65420321a 创建的主题 Python 动态变化的 js 如何逆向
@ericgui 拿来分析行业变化之类的东西
2020-06-09 18:02:02 +08:00
回复了 a65420321a 创建的主题 Python 动态变化的 js 如何逆向
@est 现在没头绪就是因为这个。。。
2018-11-02 12:24:35 +08:00
回复了 a65420321a 创建的主题 Python 多线程爬虫写入 mysql 特别的慢
@wersonliu9527 140 万条数据,大小估摸在 600M 左右,试过 pandas,114M 数据导入 mysql 的时候会卡死(试了 3 次,每次都卡一个小时没反应,数据库也没变化)。
2018-11-02 11:43:40 +08:00
回复了 a65420321a 创建的主题 Python 多线程爬虫写入 mysql 特别的慢
@CEBBCAT 测试数据库没有配置好,换到了正式库上面,重新建了个表,索引主键唯一值什么的定义好,代码原封不动跑一遍,速度上来了。
虽然还是很慢。。。。。
2018-10-31 10:40:15 +08:00
回复了 a65420321a 创建的主题 Python 多线程爬虫写入 mysql 特别的慢
我。。。。换了个数据库,重构了一下表结构,速度上去了
2018-10-30 17:25:25 +08:00
回复了 a65420321a 创建的主题 Python 多线程爬虫写入 mysql 特别的慢
@luozic 我也很想。。。甲方爸爸要 mysql
2018-10-30 16:37:29 +08:00
回复了 a65420321a 创建的主题 Python 多线程爬虫写入 mysql 特别的慢
@xyjincan 原本是这么做的,被数据库保存搞了好几天搞得有些懵,原来一个爬一个存,但是爬的快存的慢跑步了多久整个进程就崩了。。然后我给改成了爬完就存多开些线程,进程倒是不会崩了,整体速度更慢了
2018-10-30 16:11:57 +08:00
回复了 zhijiansha 创建的主题 Python 尝试用 aiohttp 写爬虫,但这么写不知道该怎么停止循环?
怎么贴的代码?
2018-10-30 16:06:55 +08:00
回复了 a65420321a 创建的主题 Python 多线程爬虫写入 mysql 特别的慢
妈耶~代码插进去好乱~
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   919 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 17ms · UTC 22:30 · PVG 06:30 · LAX 14:30 · JFK 17:30
Developed with CodeLauncher
♥ Do have faith in what you're doing.