V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
lxwlxc
V2EX  ›  问与答

如何从"国家药品监督管理"局获取全量产品成分数据

  •  
  •   lxwlxc · 2023-11-11 10:15:20 +08:00 · 1471 次点击
    这是一个创建于 408 天前的主题,其中的信息可能已经有所发展或是发生改变。

    发现一些 APP 能查到各种食品、化妆品成分数据,例如"成分喵"、"美丽修行"这种。好奇,他们是如何拿到数据的。

    我直接去国家药品监督管理局官方查询,每次搜索都需要验证码,所以他们怎么拿到全量数据的?是爬虫绕过验证码爬的、还是官方有合作渠道、还是别的手段,有知道的小伙伴吗?

    下面是成分喵截图:

    app 截图.jpg

    官网查询截图.jpg

    15 条回复    2024-10-17 23:35:56 +08:00
    mazyi
        1
    mazyi  
       2023-11-11 11:36:19 +08:00 via iPhone
    卖数据的,只是不卖给你
    sakura6264
        2
    sakura6264  
       2023-11-11 12:13:02 +08:00
    这大概率不是个技术问题。
    lxwlxc
        3
    lxwlxc  
    OP
       2023-11-11 12:33:52 +08:00
    @mazyi 你是指官方内鬼卖数据?还是说有官方有合作渠道付费接口
    lxwlxc
        4
    lxwlxc  
    OP
       2023-11-11 12:34:59 +08:00
    @sakura6264 所以好奇他们什么渠道搞来的
    mazyi
        5
    mazyi  
       2023-11-11 12:47:45 +08:00 via iPhone
    @lxwlxc 都可能有,但是你不知道,肯定就是没有了。据我所知,有些内部接口完全不公开的。
    Ericcccccccc
        6
    Ericcccccccc  
       2023-11-11 14:19:01 +08:00
    你感觉你做一个企查查能成立吗?
    me1onsoda
        7
    me1onsoda  
       2023-11-11 15:09:29 +08:00
    基本上是内部 api 。
    逆向国家机构的风控系统法律风险太大了。
    1145148964
        8
    1145148964  
       2023-11-11 15:13:28 +08:00
    这是人家的生意啊。
    lxwlxc
        9
    lxwlxc  
    OP
       2023-11-11 16:12:22 +08:00
    @Ericcccccccc 没这本事,所以老哥觉得上面 app 的数据怎么来的
    lxwlxc
        10
    lxwlxc  
    OP
       2023-11-11 16:14:11 +08:00
    @me1onsoda 我也觉得不太可能爬取或入侵国家官方系统,内部 api 是指和官方有合作吗?
    lxwlxc
        11
    lxwlxc  
    OP
       2023-11-11 16:15:24 +08:00
    @1145148964 不怕笑话,我本来也打算搞一个这种 app ,做一些特有的功能,后来发现拿不到数据
    PbCopy111
        12
    PbCopy111  
       2023-11-11 23:01:28 +08:00
    这个可以合法买数据啊,合法的。
    lxwlxc
        13
    lxwlxc  
    OP
       2023-11-12 21:22:11 +08:00
    @PbCopy111 #12 多谢回复,这么说,看来是有官方正规合作渠道
    lingalonely
        14
    lingalonely  
       130 天前
    就是采集的,那美丽修行为例,他们在 16 年就采集了,那时候一个小团队,你觉得回去哪里买数据
    lxwlxc
        15
    lxwlxc  
    OP
       66 天前 via Android
    @lingalonely 多谢回复,那就是绕过验证码或者自动识别验证码强行爬的?这么嚣张?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3151 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 12:51 · PVG 20:51 · LAX 04:51 · JFK 07:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.