V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
veike
V2EX  ›  站长

好家伙,自己从 google 翻译的文章又被某个采集站给翻译回去了😂😂😂,感觉国人的采集站要占领地球了

  •  
  •   veike · 2020-11-09 20:42:45 +08:00 · 4075 次点击
    这是一个创建于 440 天前的主题,其中的信息可能已经有所发展或是发生改变。

    昨天无意中发现自己的某篇文章外链出现在一个英文网站上,一看这不是前阵子发表在 cnblogs 上的吗? 然后查了一下该网站的 google 收录有一百多万了。 然后顺藤摸瓜顺便看来一下自己网站外链,很多文章都被采集站采集了。还有网站直接用我网站的图片,链接都不带改的,这些图片可都是花钱放在七牛上的。

    说一说一下最近的发现: 1.最近 google 英文搜索搜出很多采集站,很多采集站的版面设计都很像,就是一个导航栏,几个文章分类,然后列表,挂几个 google adsense 广告。 中文采集站和英文采集站都有,版面设计都差不多。 2.被中文采集站采集,然后流量还都比我高,并且有的采集站流量高的吓人,有的冲进 alexa 前几千。

    最后,我特么也想搞采集站了。😂😂😂老铁们博客发出来让我看看,该采哪个好😂😂😂😂😂😂

    28 条回复    2021-10-27 00:39:38 +08:00
    vus520
        1
    vus520  
       2020-11-09 20:51:34 +08:00   ❤️ 1
    什么,落伍者已经凉了?
    waytocode
        2
    waytocode  
       2020-11-09 21:17:37 +08:00
    采集站迟早是被打击的
    leemon
        3
    leemon  
       2020-11-09 21:23:09 +08:00
    什么样的采集站?发出来看看长什么样
    opengps
        4
    opengps  
       2020-11-09 21:27:45 +08:00
    高质量文章的需求确实越来越难了,所以微信公众号这种圈地流量才火了一把
    公开网络上找资源里,怕是只会越来越低
    IllBeBack
        5
    IllBeBack  
       2020-11-09 21:30:39 +08:00
    这个思路不错啊。

    采集 Stackoverflow 翻译成中文
    采集中文站翻译成英文

    内容比伪原创强多了。
    jzyzcz
        6
    jzyzcz  
       2020-11-09 21:45:24 +08:00
    赚一波就跑路
    WinG
        7
    WinG  
       2020-11-09 21:45:39 +08:00
    十年前经常混 im286 u8881 之类的 曾经也有几百个站群
    forestyuan
        8
    forestyuan  
       2020-11-09 21:54:28 +08:00
    爬虫加机器翻译,是不是就能做到全自动了
    veike
        9
    veike  
    OP
       2020-11-09 22:01:29 +08:00
    manongjc
    icode9
    还有一个找不到了
    @leemon
    veike
        10
    veike  
    OP
       2020-11-09 22:02:07 +08:00
    @forestyuan 对,现在 AI 正文提取
    veike
        11
    veike  
    OP
       2020-11-09 22:02:53 +08:00
    @jzyzcz 也不一定赚一波就跑路,很多站都是好多年了。
    veike
        12
    veike  
    OP
       2020-11-09 22:04:05 +08:00
    @waytocode 每次都说打击,结果采集站越来越多,主要是自然语言越来越成熟了。并且搜索引擎也没有明确说要打击采集站,打击的是垃圾站。
    LnTrx
        13
    LnTrx  
       2020-11-09 22:04:17 +08:00   ❤️ 3
    论采集的话,kknews.cc 这种应该是其中的代表,有文章专门分析过了
    有趣的是,这种严重侵犯知识产权的行为,却也把很多私域的文章给散播给了搜索引擎,还保留了一些原站已经挂掉的文章
    manami
        14
    manami  
       2020-11-09 22:06:22 +08:00   ❤️ 1
    垃圾站没前途,让它采集
    tyx1703
        15
    tyx1703  
       2020-11-09 22:08:32 +08:00
    @manami 但是恶心人啊
    efaun
        16
    efaun  
       2020-11-09 22:11:23 +08:00
    @waytocode #2 至于这个迟早有多早,可能等一下个宇宙大爆炸吧
    wangyzj
        17
    wangyzj  
       2020-11-09 22:23:22 +08:00
    非常之快,几乎不到一天就会从一个地方爬取到另外一个地方
    crab
        18
    crab  
       2020-11-09 22:48:45 +08:00   ❤️ 2
    @LnTrx 还有 腾讯云 阿里云
    chocotan
        19
    chocotan  
       2020-11-09 23:08:52 +08:00
    @IllBeBack 现在 stackoverflow 的翻译站已经很多了其实
    esatcj
        20
    esatcj  
       2020-11-10 00:52:50 +08:00
    有个叫什么 hotbkey (记不清了)的采集站,巨讨厌,每次想看的关键内容都被这个网站引流了。
    pigmen
        21
    pigmen  
       2020-11-10 01:05:32 +08:00
    出口转内销
    GuLuDaDuiZhang
        22
    GuLuDaDuiZhang  
       2020-11-10 02:19:25 +08:00
    最近印象比较深的是个叫热备咨询的玩意,它把谷歌中文搜索结果给雷普了
    beibeijia
        23
    beibeijia  
       2020-11-10 05:22:21 +08:00
    kknews 和 hotbak,都是采集界的巨头,发家致富靠采集的典范。
    t6attack
        24
    t6attack  
       2020-11-10 09:05:39 +08:00
    这是 2008 年站长圈子里的一个帖子

    万能的中国站长已经占领过世界了。就按 50 万站长 1%有开发能力计算,你算算中国站长私下搞出了多少全自动建站程序?
    现在还能被搜到的,已经是打击之后的死而复生的。也就是说,已经有一定门槛了,不是只向网络里塞垃圾就能获得流量的。要有一些 SEO 手段加成。
    Rwing
        25
    Rwing  
       2020-11-10 09:08:20 +08:00
    @WinG 大佬
    waytocode
        26
    waytocode  
       2020-11-13 11:50:15 +08:00
    把采集站的内容再次采集会怎样
    veike
        27
    veike  
    OP
       2020-11-13 23:06:10 +08:00
    @waytocode 不知道,反正那网站收录 100 多万了
    glouhao
        28
    glouhao  
       89 天前
    大佬们翻译一天限制多少啊,针对翻译到英语再翻译回来有大佬试过么?
    @veike
    @WinG
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3253 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 10:26 · PVG 18:26 · LAX 02:26 · JFK 05:26
    ♥ Do have faith in what you're doing.