V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sjmcefc2
V2EX  ›  程序员

有没有这样一款软件或者开源代码,可以按照输入的网站进行爬取,并根据设定的主题进行内容分类?

  •  
  •   sjmcefc2 · 2020-12-19 19:38:37 +08:00 · 2200 次点击
    这是一个创建于 1437 天前的主题,其中的信息可能已经有所发展或是发生改变。
    10 条回复    2020-12-20 14:33:39 +08:00
    siknet
        1
    siknet  
       2020-12-19 20:24:25 +08:00 via Android
    软件没有,人可以做到,一般我们称之为乙方。

    你不可能凭意念驱动软件对吧。。。
    lithiumii
        2
    lithiumii  
       2020-12-19 20:28:55 +08:00
    任意网站的话不太行
    指定网站(比如淘宝京东知乎微博……)其实是有的,百度搜爬虫软件之类的应该就能搜到,还有挺多公司做这种的。
    不过你得花钱,当然钱加够也有定制爬虫的服务
    dswyzx
        3
    dswyzx  
       2020-12-19 20:30:24 +08:00 via iPhone
    github 用爬取对象搜一搜,也许有白嫖的可能
    SaltyLeo
        4
    SaltyLeo  
       2020-12-19 22:44:29 +08:00
    招个应届生就可以了,想什么网站什么网站,想要什么数据就什么数据。觉得速度慢了,就换个新的。
    mamahaha
        5
    mamahaha  
       2020-12-20 01:54:16 +08:00
    要是不用登录的网站,应该很多
    no1xsyzy
        6
    no1xsyzy  
       2020-12-20 02:52:05 +08:00
    非单一软件,也可能不符合楼主要求(因为楼主的信息实在不明确):
    1. 自动爬虫我记得 V 站上有人分享创造过,主要是基于“相似且并列的元素”,可以转成 RSS
    2. 然后用第三方聚合器的 filter 功能进行分类。
    mumbler
        7
    mumbler  
       2020-12-20 05:41:53 +08:00 via Android
    火车采集器
    annielong
        8
    annielong  
       2020-12-20 12:30:40 +08:00
    任意一个采集工具都能实现,但是非常细节的定制分类,是没有通用的,需要自己处理
    sjmcefc2
        9
    sjmcefc2  
    OP
       2020-12-20 13:17:04 +08:00
    @annielong 不用忒别 细节,只要是在网页里面有某些关键词就可以归为一个主题
    veike
        10
    veike  
       2020-12-20 14:33:39 +08:00 via Android
    文本分类器?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3715 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 10:40 · PVG 18:40 · LAX 02:40 · JFK 05:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.