V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
tthem
V2EX  ›  问与答

有没有大佬会爬虫的,有一个需求想请教一下

  •  
  •   tthem · 8 天前 · 839 次点击

    帮一个朋友转发:

    大家好!!!计算机纯小白,自媒体行业从业者,希冀实现以下诉求:做一个能搜集文案,并给我自动二创文案的软件,每个月搜集三十篇。 在收集文案、二创文案这个环节实现自动化。 想问问大家,小白利用 gpt 来学习制作爬虫实现这一诉求,学习成本非常高昂吗? 有能力制作这个程序的朋友也欢迎报价。

    16 条回复    2024-12-10 16:35:58 +08:00
    PbCopy111
        1
    PbCopy111  
       8 天前
    我感觉你要是连这个问题都不用大模型回答的话,可能不是学习成本的问题了,先好好上学吧。

    以下回复来自 kimi:

    您好!看起来您希望开发一个软件,用于搜集文案并自动生成二创文案,以实现自动化。对于您的问题,我提供以下建议:

    1. **学习成本**:
    - 如果您是计算机纯小白,学习制作爬虫可能需要一定的时间和努力。爬虫技术涉及到编程语言(如 Python )、网络请求处理、数据解析等知识。如果您打算自学,可以通过在线课程、教程和社区论坛逐步学习。学习成本取决于您的学习能力和投入时间。

    2. **利用 GPT**:
    - GPT ( Generative Pre-trained Transformer )是一种预训练语言模型,可以用于生成文本。对于自动生成文案,您可以考虑使用 GPT 或类似的模型。这些模型通常需要大量的数据训练,并且可能需要一定的技术知识来调整和优化。

    3. **自动化软件**:
    - 开发一个完整的自动化软件涉及到前端(用户界面)、后端(数据处理和存储)、爬虫(数据搜集)等多个部分。如果您不熟悉编程,可能需要聘请专业的开发人员来帮助您。

    4. **报价**:
    - 对于有能力制作这个程序的朋友报价,这取决于项目的复杂度、开发时间和所需的技术资源。您可以联系专业的软件开发公司或个人开发者,提供您的具体需求,以便他们能够为您提供准确的报价。

    5. **其他建议**:
    - 您可以考虑使用现有的文案生成工具或服务,这些工具可能已经集成了爬虫和文案生成功能,可以更快速地满足您的需求。

    如果您需要进一步的帮助,比如寻找学习资源、了解开发成本或者寻找开发人员,我可以为您提供更多的信息和建议。
    YJi
        2
    YJi  
       8 天前
    写个爬虫一个月爬 30 篇文案,你不如人工去复制粘贴啊。有的平台反爬还挺严重的。 (但从你发出来的信息来看,我感觉不是很难)
    YJi
        3
    YJi  
       8 天前
    @YJi 我感觉比较不好衡量的是 二创的文案质量 能不能达到你朋友满意。 数据是小事情。
    ma836323493
        4
    ma836323493  
       8 天前
    1. 搜集文案 2. 二创

    1 简单, 2 只有把这些文案 发给 gpt 让他给我答案
    tthem
        5
    tthem  
    OP
       8 天前
    @PbCopy111 他是想请人来做,我认为纯小白学习起来会遇到很多困难,未来不走技术路线的话不如直接花钱
    tthem
        6
    tthem  
    OP
       8 天前
    @YJi 有数据,就 ok 了,二创是次要
    tthem
        7
    tthem  
    OP
       8 天前
    @ma836323493 主要是 1
    ma836323493
        8
    ma836323493  
       8 天前
    @tthem #7 #7 1 不难吧, 搜集文案,看你去哪些平台搜, 我知道的小红书有现成 api , 其他平台的话最不济也能 playwright 截图 ocr 识别把
    YJi
        9
    YJi  
       8 天前
    @tthem #6 要啥平台的数据,我这里有。
    coderluan
        10
    coderluan  
       8 天前
    这事取决于你要爬的平台,有的平台反爬严格,你不光需要技术,还得有对应的资源才能爬。有的反爬简单,你简单学一下 html ,然后 F12 能打开页面找到 Dom ,然后直接发给 gpt ,让它给你用 scrapy 生成对应的爬虫就行了。
    drush
        11
    drush  
       8 天前
    洗稿就算了,还要自动化 [手动狗头
    wnpllrzodiac
        12
    wnpllrzodiac  
       8 天前
    面向监狱编程的技巧不好学习啊。真是。
    tthem
        13
    tthem  
    OP
       8 天前
    @YJi 图片挂了,大佬可以加一下我朋友 RnJhbmsxMHc=
    YJi
        14
    YJi  
       8 天前
    @tthem #13 已加莫辜负哈哈,图片是表情包
    NoOneNoBody
        15
    NoOneNoBody  
       8 天前
    你这个量(约每天一篇)根本就不是爬虫
    说到底这个每天一篇是筛选后的结果?如果目标很明确不需要人工筛选,那写个小脚本自动访问就可以了,类似自动签到的脚本;但如果目标不明确,要在一堆海量文章选 30 篇,这个才需要爬虫,但这个筛选过程就异常的难了,自动化的话需要可能上百个条件做判断,还是说筛选过程就交给 AI ?人工筛选?

    第二步将 30 篇归纳概括为最终一篇文章,这个用 api 倒不是难事,如果想本地实现,那花费就不是“小白”承担得起的

    个人建议先确定这 30 篇怎么来,容易获取可以 gpt 帮忙写个小脚本,需要海量后筛的就付费请人吧
    xiaopapa
        16
    xiaopapa  
       8 天前
    不难,爬虫的难是大量爬取必然触发反爬,你这直接 selenium 一把梭
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3144 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 13:30 · PVG 21:30 · LAX 05:30 · JFK 08:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.