V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
hao1032
V2EX  ›  分享创造

写了一个抓取图片的网站

  •  
  •   hao1032 · 2015-06-15 12:23:04 +08:00 · 4276 次点击
    这是一个创建于 3481 天前的主题,其中的信息可能已经有所发展或是发生改变。
    http://ouyuimg.sinaapp.com/ 现在抓了腾讯活着,网易看客,必应背景3个网站的。

    放在sae上面,不要用IE访问。
    28 条回复    2015-06-19 12:28:46 +08:00
    xavierskip
        1
    xavierskip  
       2015-06-15 12:54:31 +08:00
    图片浏览用的是什么插件?
    hao1032
        2
    hao1032  
    OP
       2015-06-15 13:14:29 +08:00
    @xavierskip
    电脑上: http://www.woothemes.com/flexslider/
    手机上:没有插件,就是bootstrap的缩略图 http://v3.bootcss.com/components/#thumbnails
    Anybfans
        3
    Anybfans  
       2015-06-15 13:16:59 +08:00
    为什么点击图片不居中啊。。。一直靠左好难受。
    imn1
        4
    imn1  
       2015-06-15 13:17:58 +08:00
    不考虑版权么?我写了个抓几十个站的都不敢发
    hao1032
        5
    hao1032  
    OP
       2015-06-15 13:29:12 +08:00
    @Anybfans 居中文字就没有地方显示了
    hao1032
        6
    hao1032  
    OP
       2015-06-15 13:30:15 +08:00
    @imn1 哪有钱考虑版权啊
    hao1032
        7
    hao1032  
    OP
       2015-06-15 13:31:44 +08:00
    @imn1 抓的都是什么站啊,方便说吗?
    Front
        8
    Front  
       2015-06-15 13:35:03 +08:00
    打开某张图片之后怎么返回到图片列表?浏览器后退么?
    imn1
        9
    imn1  
       2015-06-15 13:35:25 +08:00
    @hao1032
    我的是通用程序,不同站点只是改参数(regex or xpath),当然这个参数需要自己手动分析
    反正北都除了dmm这货搞不定,其他全抓完了
    hao1032
        10
    hao1032  
    OP
       2015-06-15 13:38:34 +08:00
    @Front 当前是的。
    Front
        11
    Front  
       2015-06-15 13:43:33 +08:00
    @hao1032 这交互有点不习惯。
    hao1032
        12
    hao1032  
    OP
       2015-06-15 14:06:39 +08:00
    @Front 问下,现在你看完的这个v2ex帖子,怎么回列表?
    2015
        13
    2015  
       2015-06-15 14:16:39 +08:00 via Android
    @imn1 求分享通用程序
    或者名字 :)
    hao1032
        14
    hao1032  
    OP
       2015-06-15 14:33:33 +08:00
    imn1
        15
    imn1  
       2015-06-15 15:08:13 +08:00
    @2015
    @hao1032
    没有传出去
    其实就是个爬虫,输出是aria2下载列表,不过改成html也很容易,只是没这个需求
    imn1
        16
    imn1  
       2015-06-15 15:13:01 +08:00
    我最疯的一次是13年底把 mm.taobao 全抓了下来,300G左右,然后把 aria2 列表给了朋友就全删掉了
    图太杂,只有少于3%看得上眼,没法分类,就删了
    ajan
        17
    ajan  
       2015-06-15 20:24:40 +08:00
    @imn1 共享代码
    492162921
        18
    492162921  
       2015-06-16 09:51:40 +08:00
    求指教,如何抓取新浪微博的图片? [email protected]
    hao1032
        19
    hao1032  
    OP
       2015-06-16 11:39:56 +08:00
    @492162921 新浪微博有api吧
    hao1032
        20
    hao1032  
    OP
       2015-06-16 14:16:45 +08:00
    @Front 已经打算在新窗口打开连接了。
    twc731
        21
    twc731  
       2015-06-16 14:46:53 +08:00
    题主能给份源代码看看吗?我正在学这个,[email protected]。谢谢
    hao1032
        22
    hao1032  
    OP
       2015-06-16 14:59:09 +08:00
    @twc731 学什么?
    hao1032
        23
    hao1032  
    OP
       2015-06-16 15:03:23 +08:00
    @twc731 我看到你的主题了,你是在学习爬虫。我这个是用django做的网站,不是单纯爬虫,不适合你。且现在没有发源码的想法。
    492162921
        24
    492162921  
       2015-06-17 13:53:16 +08:00
    @hao1032 新浪微博有API ? 能够抓取到某个人发的图片或者说说吗, 没找到。
    hao1032
        25
    hao1032  
    OP
       2015-06-18 11:58:30 +08:00
    @492162921 我没有用过微博api,在网站上看了下。你看看是这个吗?
    http://open.weibo.com/wiki/2/statuses/user_timeline
    x4
        26
    x4  
       2015-06-18 13:22:27 +08:00 via Android
    @2015
    @ajan
    @twc731 他@binux 有个抓豆瓣的,很不错的
    gaotongfei
        27
    gaotongfei  
       2015-06-19 04:05:50 +08:00 via iPad
    楼主定时抓取是用什么做的?crontab吗?
    hao1032
        28
    hao1032  
    OP
       2015-06-19 12:28:46 +08:00
    @gaotongfei sae上的cron服务
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1239 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 18:02 · PVG 02:02 · LAX 10:02 · JFK 13:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.