发个来自 baidu 的爬虫不是程序员写的不好请轻喷 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3606 天前的主题，其中的信息可能已经有所发展或是发生改变。

import urllib.request
import re
import pdb
import webbrowser
from time import sleep


class Webpage:
    def __init__(self, url):
        # init page
        self.url = url
        header = {
            'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 8_2 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12D508 Safari/600.1.4'}
        request = urllib.request.Request(url, headers=header)
        sleep(2)
        webpage = urllib.request.urlopen(request)
        webpage = webpage.read()
        webpage_decode = webpage.decode()
        self.webpage = webpage_decode
        DCIM = re.compile(r'来自')
        title = DCIM.findall(webpage_decode)
        if len(title) != 0:
            webbrowser.open(url)
def Page(min ,max):
    for i in range(min, max):
        url ='http://yun.baidu.com/share/home?uk='+str(i)
        yield url

if __name__ == '__main__':
    for i in Page(1,5000):
        Webpage(i)

7 条回复 • 2016-04-01 13:50:05 +08:00

1

knightdf

2016 年 4 月 1 日

webbrowser.open(url)

2

leavic

2016 年 4 月 1 日

10 年前，我们管这种一次打开 5000 个网页的东西叫做恶意脚本，确实很适合在愚人节用。

3

Tink

PRO

2016 年 4 月 1 日

我昨晚下载完了，正在往数据库里导

4

Sequencer

OP

2016 年 4 月 1 日 via iPhone

@knightdf @leavic 有个判断语录还有个 sleep 5000 个里面可能能找到一个

5

Sequencer

OP

2016 年 4 月 1 日

@Tink 你用的分布式爬的？

6

Tink

PRO

2016 年 4 月 1 日

@Sequencer 我从 mega 上手动下载的。。。。

7

aksoft

2016 年 4 月 1 日

今天是愚人节。。

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 706 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 29ms · UTC 22:27 · PVG 06:27 · LAX 14:27 · JFK 17:27
♥ Do have faith in what you're doing.