V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
BeiChuanAlex
V2EX  ›  程序员

爬了 3534 个 Telegram 群/频道/机器人,却发现只有 6%的优质账号(开源所有代码和数据)

  •  1
     
  •   BeiChuanAlex ·
    jackhawks · 292 天前 · 15704 次点击
    这是一个创建于 292 天前的主题,其中的信息可能已经有所发展或是发生改变。

    背景:使用 Telegram 的时候,为了能找到一些有意思的、好玩的、纯粹资源分享的群和频道,总是很困难,尽管有些网站推荐了不少的群 /频道 /机器人,但是往往其中很多都已经过期了,甚至很多都注销了,也有一些变成了涩涩群、机场群,一个一个筛选起来很麻烦,所以决定用 Python 爬虫来解决这一问题。

    过程:用时一天时间,收集整理了很多网站数据,建立 URL 集合,使用 Scrapy 总共从十几个地址,爬了总计 3534 条数据。所有的数据及 SQL 已经放到文件 telegram_info.sql 中,爬虫代码放在了 telegram-groups-spider 文件夹里面。有需要的同学可以自行取用。

    结果:从 3534 个中,按照订阅数 /会员数排序,并排除了其他语言的账号只选择做中文内容的账号,也排除了包含:机场、Sex 、Gamble 、Politics 等内容,手工精选了 200 多个放在了下面的表格里,感兴趣的同学可以根据自己喜好选择加入。

    感悟:从数据来看,其中有很多是早已注销的群 /频道 /机器人,也有不是是灰黑产业的账号或者挂羊头卖狗肉的账号。精选账号大概只占到总数的 6% ,这个比例还是挺惊人的,中文的优质内容在 Telegram 还是相对匮乏,Telegram 在中文内容上更像是一个灰黑产的温床。虽然精选了 200 多个账号,但其中也有不少是羊毛,搬运,资源,影视,破解等内容,这些内容也是处于擦边球地带,真正优质的内容还会更少,当然这也限制与样本本身的质量,也许有不少好的账号还未被发现,也欢迎知道优质账号的同学能在 issue 留下它的链接。

    数据库截图

    GitHub 地址https://github.com/alexbei/telegram-groups

    第 1 条附言  ·  292 天前
    为了方便大家查看,买了一个域名,添加了Github Page,现在可以直接网页看了,十分清爽:
    =====> https://www.tgqun.xyz/
    第 2 条附言  ·  288 天前

    这里是记录第二次结果的帖子(续作):

    https://www.v2ex.com/t/952123

    67 条回复    2023-11-29 00:15:45 +08:00
    dilu
        1
    dilu  
       292 天前   ❤️ 2
    上 tg 不就是为了看 yellow Politics 以及小飞机嘛? doge
    pengtdyd
        2
    pengtdyd  
       292 天前
    Telegram 确实有不少黑灰内容
    Cheons
        3
    Cheons  
       292 天前 via Android   ❤️ 1
    我倒要看看除了 Sex 、Politics ,TG 上还有什么优质中文内容
    klo424
        4
    klo424  
       292 天前
    mark ,好东西,已 starred ,希望能持续更新!
    missdeer
        5
    missdeer  
       292 天前
    看了一眼精选的 6%,确实也不少注水的
    sunamask
        6
    sunamask  
       292 天前
    好项目,感谢!我找了一万年的歪屁股新闻终于有解决方案了~
    BeiChuanAlex
        7
    BeiChuanAlex  
    OP
       292 天前
    @Cheons 优质的中文内容不光是 Telegram 上很少,其他平台上也不多,只是 Telegram 上更少罢了,这个是生态决定的。
    BeiChuanAlex
        8
    BeiChuanAlex  
    OP
       292 天前
    @missdeer 确实也不少注水的,这也和样本数量及样本来源有关,目前能找到的 URL 集有限。
    gablic
        9
    gablic  
       292 天前
    可以把筛掉的 3334 条数据也发一下吗,学习学习
    BeiChuanAlex
        10
    BeiChuanAlex  
    OP
       292 天前
    @gablic 所有的数据都在 GitHub 项目的这个文件里面:telegram_info.sql
    kingwrcy
        11
    kingwrcy  
       292 天前
    star 了,能否直接把内容爬出来,这样没有 tg 环境的人也能看.
    ChainLock
        12
    ChainLock  
       292 天前
    start
    BeiChuanAlex
        13
    BeiChuanAlex  
    OP
       292 天前
    @kingwrcy 大部分的群 /频道 /机器人里面的内容都是日常闲聊的内容,对话内容爬出来也没有什么价值。
    Retas
        14
    Retas  
       292 天前
    电报上科技新闻类的频道都挺不错的,时效性比较高,没有软广浪费时间
    kingwrcy
        15
    kingwrcy  
       292 天前
    @BeiChuanAlex #13 对话的是没价值,我说的是分享软件 /硬件 /咨询类的
    tanmrs48
        16
    tanmrs48  
       292 天前
    看了下上边优质的很多都加过,最优质的比如羊毛白嫖都在小众的交流群里,我有一个想法是写一个程序可以每天监控群里的聊天记录,然后关键词定位,
    BeiChuanAlex
        17
    BeiChuanAlex  
    OP
       292 天前
    @kingwrcy 可以爬,有现成的接口。
    BeiChuanAlex
        18
    BeiChuanAlex  
    OP
       292 天前
    @tanmrs48 tg 有客户端接口,可以用这个来做
    opwwecccc
        19
    opwwecccc  
       292 天前
    高,实在是高
    garipan
        20
    garipan  
       292 天前
    确实不错!谢谢 po 主
    cooper2020
        21
    cooper2020  
       292 天前
    好玩的尝试。顺便提一句,__pycache__目录不必同步 git
    BeiChuanAlex
        22
    BeiChuanAlex  
    OP
       292 天前
    @cooper2020 谢谢提醒
    ysc666
        23
    ysc666  
       292 天前
    卧槽 真好!!!
    elechi
        24
    elechi  
       292 天前
    谢谢 OP ,回家慢慢看
    encro
        25
    encro  
       292 天前
    自从注册了 tg 账号,每天收到小姐姐相关短信。
    simon633
        26
    simon633  
       292 天前
    我是 APPDO 数字生活指南的频道主,非常感谢楼主的推荐~
    modao3
        27
    modao3  
       292 天前   ❤️ 1
    ios 鸡神-专注分享破解
    这个频道主被盗号的运营着了,建议删掉.发的文件可能不安全
    BeiChuanAlex
        28
    BeiChuanAlex  
    OP
       292 天前
    @modao3 好的,感谢反馈
    delete26
        29
    delete26  
       292 天前
    现在公开的群和频道大多都是黑产和色情了,早些年人少的时候都没有这些垃圾广告群,自从公开的群被大量机器人入侵用来自动发广告之后,很多群都变成私人群了
    ivstranger
        30
    ivstranger  
       292 天前
    仔细再筛选,估计 6%都不到(很荣幸上榜)
    modao3
        31
    modao3  
       292 天前
    再推一下我另外一个
    @recommend3
    BeiChuanAlex
        32
    BeiChuanAlex  
    OP
       292 天前
    @delete26 用户越多,管理的成本会直线上升,运营一个好的账号本身也是需要不小的成本,私人群确实能更方便的管理。
    zhuxc
        33
    zhuxc  
       292 天前
    start
    BRmeng
        34
    BRmeng  
       292 天前
    能不能偷偷扒点糟粕,我想批判一下😂
    BeiChuanAlex
        35
    BeiChuanAlex  
    OP
       292 天前
    @BRmeng 在项目的 telegram_info.sql 文件中可以自己看
    xpl8435
        36
    xpl8435  
       292 天前
    分享一个 TCL 家电内购群组,有需要可加: https://t.me/tcl_jiadian
    Tyrant1984
        37
    Tyrant1984  
       292 天前
    真是好东西啊,感谢楼主~~
    现在 TG 天天只能看看梯子为什么又崩了,感觉很浪费,现在可以好好用一下了
    hoor
        38
    hoor  
       292 天前
    TG 里面有讨论 xray ,sinbox 协议等很多知识,还有一些面板 jd 等。。。还有机器人可以玩,
    signal 却没有多少人用
    BeiChuanAlex
        39
    BeiChuanAlex  
    OP
       292 天前
    @hoor 科学上网相关内容的账号没有放到表格里,相关的账号里太多买卖机场的内容了,很难筛选。
    zong400
        40
    zong400  
       292 天前
    偷偷看看有什么优质的
    opengps
        41
    opengps  
       292 天前
    怪不得我至今觉得 tg 用不起来,原来比例这么低,我还没进去
    guazila
        42
    guazila  
       292 天前
    中国数字时代竟然不算涉政,不错。
    BeiChuanAlex
        43
    BeiChuanAlex  
    OP
       292 天前
    @guazila 已删除
    Jirajine
        44
    Jirajine  
       292 天前   ❤️ 2
    如何定义优质?随便扫了一眼,色情、piracy 很多,新闻频道要么涉政要么机场网络相关,币圈相关和菠菜也分不开。你这样筛选意义不大,既会包含“低质量”内容,也会漏掉“高质量”内容。
    什么内容算“高质量”取决于用户的需求,建议用更中立的方式,不要根据内容主题筛选,只把充斥 spam 刷屏、广告、废弃无管理等信噪比低的过滤掉就行。
    Arvin567
        45
    Arvin567  
       292 天前
    今日最佳帖子
    lewi
        46
    lewi  
       292 天前
    点赞!
    BeiChuanAlex
        47
    BeiChuanAlex  
    OP
       292 天前
    @Arvin567 谢谢
    lizhesystem
        48
    lizhesystem  
       292 天前
    好好好!
    jzyzcz
        49
    jzyzcz  
       292 天前
    telegram 上有些搜群的机器人,输入关键字,就会返回一些相关的群。

    很好奇他们是怎么实现的,是有可以爬所有公开群 /频道的官方接口吗?
    BeiChuanAlex
        50
    BeiChuanAlex  
    OP
       292 天前   ❤️ 1
    @jzyzcz 应该是爬的,然后做成接口
    hanguofu
        51
    hanguofu  
       291 天前
    "买了一个域名" : 好评~~~ 楼主是个热心人!
    HungryOrangeCat
        52
    HungryOrangeCat  
       291 天前   ❤️ 2
    @jzyzcz 这个我研究过一段时间,他们是从一个群的聊天信息里提取 TG 链接然后循环迭代这个做一个广度优先搜索类似的过程,缺点就是很消耗 TG 账号,因为一个 TG 账号每天只能访问 200 左右群组 /频道
    invdan
        53
    invdan  
       291 天前
    感谢收录了我的两个群组😄
    simazilinVV
        54
    simazilinVV  
       291 天前
    你以为我上 tg 想干嘛
    RageBubble
        55
    RageBubble  
       288 天前
    感谢,本来想用爬虫自己去爬 tgstat ,telegram-store 这样的数据库,没想到你已经做好了。😘😘😘😘😘😘😘😘😘😘😘😘😘😘😘😘😘
    RageBubble
        56
    RageBubble  
       288 天前
    有一点没搞懂,为什么你说爬取了 5000 多个样本,但下载了 github 里面的 csv 后 excel 里打开只有 2209 行的数据?🧐
    RageBubble
        57
    RageBubble  
       288 天前
    @RageBubble #55 希望大佬能分享下全部的 5000 多条数据
    RageBubble
        58
    RageBubble  
       288 天前
    或者只给 3036 账号也可以,再次膜拜感谢😭
    BeiChuanAlex
        59
    BeiChuanAlex  
    OP
       288 天前
    @RageBubble 只有 2000 多行数据是因为我用不能展示的关键字给过滤掉了,有太多的不适合展示的账号,就直接删掉了,最终只剩下这么多了,这还不是最终结果,最后一个一个点进去看,然后筛选,很费劲的。
    oddboy
        60
    oddboy  
       287 天前 via Android
    这属于在老鼠屎里舀清汤了,辛苦了大佬
    RageBubble
        61
    RageBubble  
       284 天前
    @BeiChuanAlex #59 大佬我还有个问题 我研究了一下 scrapy 代码 为啥你不直接数据上传到 supabase 的数据表里,而是单独使用本地的 PostgreSQL 数据库呢
    BeiChuanAlex
        62
    BeiChuanAlex  
    OP
       284 天前
    @RageBubble 我也上传到了 supabase ,本地也有。但是这些数据全是原始数据,里面有大量的不适宜数据,不能直接公开。
    RageBubble
        63
    RageBubble  
       284 天前
    @BeiChuanAlex #62 噢噢 没事 到时候我自己再爬一次就是了
    giter
        64
    giter  
       259 天前
    请问楼主,Github 的 md 文件爬不出来结果是怎么回事?其它都能爬,就是 Github 不能爬。

    ```
    INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
    INFO: Closing spider (finished)
    ```
    BeiChuanAlex
        65
    BeiChuanAlex  
    OP
       259 天前
    @giter 给的信息太少了,很难分析原因。爬虫爬不出数据,要么是代码写的有问题,要么被反爬了。
    cqcn1991
        66
    cqcn1991  
       137 天前
    @BeiChuanAlex 想请问一下 LZ, 这个爬虫是能爬每个 channel 的消息嘛?还是能干什么?
    BeiChuanAlex
        67
    BeiChuanAlex  
    OP
       137 天前   ❤️ 1
    @cqcn1991 不能爬取消息,只能获取群的介绍。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1025 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 18:54 · PVG 02:54 · LAX 11:54 · JFK 14:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.