V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
dbfox
V2EX  ›  奇思妙想

奇思妙想:灵光闪现,想搞一个爬虫平台,有没有可能会火?

  •  
  •   dbfox · 2017-11-20 11:01:24 +08:00 · 6832 次点击
    这是一个创建于 2563 天前的主题,其中的信息可能已经有所发展或是发生改变。
    (不喜勿喷:都说了是灵光闪现)

    想法是这样子的:

    首先有这样一个平台,可以让爬虫爱好者提交爬虫上来 (不仅仅是可以爬网站,还可以爬公众号、头条号 ====)

    比如:某爬虫爱好者,提交了一个 V2EX 最新帖子 和 最热帖子的爬虫进来

    然后:这个爬虫可以让其他用户订阅使用

    当聚集了一定的爬虫爱好者,每天会产生很多内容

    主要的意义:聚合碎片化的阅读,为用户节约时间

    当然一个平台需要不断的优化调整才能达到更好的体验,
    这只是一个小小的想法,不知道能吸引到人来写爬虫不
    44 条回复    2017-11-25 20:38:13 +08:00
    Evrins
        1
    Evrins  
       2017-11-20 11:10:31 +08:00 via iPhone
    好像已经有一个这样的网站了
    dbfox
        2
    dbfox  
    OP
       2017-11-20 11:12:51 +08:00
    @Evrins 求地址
    shower
        3
    shower  
       2017-11-20 11:17:59 +08:00 via Android
    @dbfox 即刻
    watzds
        4
    watzds  
       2017-11-20 11:19:05 +08:00 via Android
    那么多爬虫 /反爬虫工程师,那么费劲,一定程度上共享得了
    lneoi
        5
    lneoi  
       2017-11-20 11:19:59 +08:00
    已经有了...V 站里之前不就有在推广
    evlos
        6
    evlos  
       2017-11-20 11:22:31 +08:00
    之前那个搞什么云爬虫的服务在 V2EX 做了那么多推广也没见人再提过 …
    dbfox
        7
    dbfox  
    OP
       2017-11-20 11:26:35 +08:00
    @evlos
    @lneoi

    我也知道那个,用了两下,觉得可玩性不好,而且有点复杂了,不过技术应该很强
    而且他主要是做通用爬虫,而我倾向内容聚合,产品不在一个方向
    ywgx
        8
    ywgx  
       2017-11-20 11:27:12 +08:00
    可爱的
    beastk
        9
    beastk  
       2017-11-20 11:36:22 +08:00 via iPhone
    就怕被不法分子利用
    dbfox
        10
    dbfox  
    OP
       2017-11-20 11:51:33 +08:00
    @ywgx ?_?
    dbfox
        11
    dbfox  
    OP
       2017-11-20 11:52:12 +08:00
    @beastk 安全问题不必考虑太早,技术做产品大忌
    40huo
        12
    40huo  
       2017-11-20 12:28:41 +08:00
    之前好像看到过一个做了个框架,然后上面有各种人写的爬虫,还有些是付费的。
    liangjing414
        13
    liangjing414  
       2017-11-20 12:31:07 +08:00
    网上 搜 “神箭手”,不谢
    qiqico
        14
    qiqico  
       2017-11-20 12:35:47 +08:00
    有个网站 showapi, 提供很多接口调用,其中也包括一些爬虫接口,还可以在线自定义爬取规则
    ersic
        15
    ersic  
       2017-11-20 12:38:30 +08:00 via Android
    @dbfox 聚合话应该就是即刻了
    cheetah
        16
    cheetah  
       2017-11-20 13:02:27 +08:00
    1931
        17
    1931  
       2017-11-20 13:16:18 +08:00 via iPhone
    深蓝阅读?
    em70
        18
    em70  
       2017-11-20 13:35:21 +08:00
    很早前就见过,主打不是共享,而是傻瓜化爬取,还是工具型的产品,不吸引人.

    按楼主的想法,应该是数据驱动的,核心是爬取的数据共享,比工具共享要好,可以试试
    110male
        19
    110male  
       2017-11-20 13:38:33 +08:00
    管理,封他账号,他要爬 v2ex
    dbfox
        20
    dbfox  
    OP
       2017-11-20 13:49:20 +08:00
    @110male
    ^_^

    只爬列表,不抓取内页,最终访问地址还是到源网站上
    weer0026
        21
    weer0026  
       2017-11-20 14:06:59 +08:00
    这个让我想起来 golang 的爬虫框架 pholcus 了,思路很像。
    wmhx
        22
    wmhx  
       2017-11-20 14:22:16 +08:00
    haker
        23
    haker  
       2017-11-20 14:25:13 +08:00
    八爪鱼
    QQ2171775959
        24
    QQ2171775959  
       2017-11-20 14:36:38 +08:00
    爬一下爬,要是能汇聚一批人和信息的也是有一点用处的
    fiht
        25
    fiht  
       2017-11-20 16:52:13 +08:00
    提交了一个爬虫上来:
    提交的爬虫放在你的服务器上跑么...
    不如 rss 靠谱
    ThinkMan
        26
    ThinkMan  
       2017-11-20 16:56:17 +08:00
    几个月前,我也有这种想法。一模一样。
    Zzzzzzzzz
        27
    Zzzzzzzzz  
       2017-11-20 16:58:44 +08:00
    秒变分布式 CC 平台.....
    dbfox
        28
    dbfox  
    OP
       2017-11-20 17:00:11 +08:00
    @ThinkMan 搞个爬虫,以虫会友
    @fiht 也可以在我家用电脑上跑,跑好了提交给服务器也可以,具体没想那么多细节
    wulin
        29
    wulin  
       2017-11-20 17:46:03 +08:00
    订阅 1024
    Shura
        30
    Shura  
       2017-11-20 18:23:02 +08:00   ❤️ 1
    v 站有人做了个自动签到平台就是这个思路,我发现最难的是“某爬虫爱好者,提交了一个 V2EX 最新帖子 和 最热帖子的爬虫进来 ”,很难做到让人提交爬虫脚本,到最后平台基本也就是作者自己提供的脚本最多了。
    ZSeptember
        31
    ZSeptember  
       2017-11-20 20:35:21 +08:00
    神箭手
    qfdk
        32
    qfdk  
       2017-11-21 01:55:50 +08:00 via iPhone   ❤️ 1
    跳蚤大神不是早就搞了 这轮子不用造了
    Arnie97
        33
    Arnie97  
       2017-11-21 01:56:09 +08:00 via Android
    这根 RSS 有什么本质差别…
    yech1990
        34
    yech1990  
       2017-11-21 02:28:40 +08:00 via Android
    Google 阅读器还在的时候,google 和 yahoo 有类似的实现。Google RSS 关闭后,我也有和楼主一样的想法。

    虽然现在有一些类似的方案,但都是闭源收费的服务为主。

    之前打算在 github 开个 organization, 分享一些爬虫代码,定义一套接口规范,最终输出类似 RSS 的 xml 格式。

    零散写了一些脚本后就放弃了。一方面工程浩大,一方面代码水平太差,一个人连 demo 都实现不了,实现不了 demo 的话,不可能有其他人贡献代码。另外就是现在 RSS 阅读似乎是时代的逆流了,不知几年后 RSS 的用户,也就没太多折腾的动力了。

    楼上很多推荐聚合阅读的,应该是没明白楼主的出发点吧。。。
    naiba
        35
    naiba  
       2017-11-21 08:28:33 +08:00 via Android
    即刻+1
    Norie
        36
    Norie  
       2017-11-21 09:27:06 +08:00
    即刻+2
    Aresn
        37
    Aresn  
       2017-11-21 11:20:31 +08:00
    你听说过 feedly 吗
    haogefeifei
        38
    haogefeifei  
       2017-11-21 14:28:50 +08:00
    即刻+3
    haozhu
        39
    haozhu  
       2017-11-21 15:04:16 +08:00
    即刻+4
    dorothyREN
        40
    dorothyREN  
       2017-11-21 16:26:42 +08:00
    我看行
    forestyuan
        41
    forestyuan  
       2017-11-21 17:21:19 +08:00
    这样做会不会有法律风险?
    yangxiongguo
        42
    yangxiongguo  
       2017-11-22 01:09:39 +08:00
    今天头条?
    chenyu8674
        43
    chenyu8674  
       2017-11-22 10:47:42 +08:00
    还不如建个爬虫开发者与反爬虫工程师的约架网站
    dreamin
        44
    dreamin  
       2017-11-25 20:38:13 +08:00
    我直接贴个网址吧,先说不是为了推广。我也是之前网上搜的,用过。http://www.shenjianshou.cn/index.php?r=market/productList
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3540 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 00:08 · PVG 08:08 · LAX 16:08 · JFK 19:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.