V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
chanlk
V2EX  ›  程序员

低成本识图方案?

  •  
  •   chanlk · 2025 年 5 月 23 日 · 5407 次点击
    这是一个创建于 235 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目前正在预研一个低成本的识图方案,场景是家用安防摄像机的。

    目前调研了有两个方向

    一个是以 yolo 、aws rekonition 为代表的传统的 CNN 识图方案,
    其中 yolo 面临的问题是现成的模型有标签不足够覆盖场景,要自己训练心里没底
    直接用 aws rekonition 的成本很高,谈了折扣算下来也还是很高

    传统方案有另一个弊端就是对于抽象的"词"无法理解,比如想要对"危险情况"做识别,只能分解到具体的事物,比如火焰、枪支、刀具等。


    另一个是走大模型的识图方向
    1. 自己部署开源模型,Qwen2.5 VL 系列和 Janus-Pro ,7B 和 32B 都试了,感觉效果不佳
    2. 调 Api ,试了几家,发现 aws nova 在价格和效果上都很不错

    我纯后端开发,计算机视觉和大模型方面是个小白
    站内的大佬有在这方面有经验的吗,有什么经验可以分享一下,谢谢你~
    41 条回复    2025-11-17 09:37:33 +08:00
    kuro1
        1
    kuro1  
       2025 年 5 月 23 日   ❤️ 1
    YOLO 自己训练
    jimrok
        2
    jimrok  
       2025 年 5 月 23 日
    你这个方向不是图像识别和事态感知的内容吗,军工和自动驾驶行业的人能帮你判断一下吧。
    chanlk
        3
    chanlk  
    OP
       2025 年 5 月 23 日
    @kuro1 我看 YOLO 很多的应用场景在 B 端,聚焦的场景很单一,我们这个是家用的场景,用户可能放在卧室、客厅、户外都有可能,而且场景里会出现的物品和事件太多了,感觉很难弄一个通用的 YOLO 模型出来。
    chanlk
        4
    chanlk  
    OP
       2025 年 5 月 23 日
    @jimrok 事态感知?没见过这个名词,我去查查看。我们是做 C 端的哈,就是最常见的家用安防摄像机。
    lyxxxh2
        5
    lyxxxh2  
       2025 年 5 月 23 日
    但是 api 不错,真的是实际场景图吗?
    我用 grok chat,前几张好识别的,确实可以回答出来。
    但是不好识别的,一样 gg 。

    yolo:
    安防数据集,算是挺常见的。
    去网上找训练好的模型,让 ai 帮你测试。
    数据集也行,自己训练下。
    lyxxxh2
        6
    lyxxxh2  
       2025 年 5 月 23 日
    https://docs.ultralytics.com/zh/guides/security-alarm-system/
    如果你找好了模型,自己都不用写什么代码,官方都有示例。
    hwdq0012
        7
    hwdq0012  
       2025 年 5 月 23 日
    安防一般不是用目标识别吧, 一般是移动侦测,姿态分析(摔倒)
    monkeyWie
        8
    monkeyWie  
       2025 年 5 月 23 日
    最近不是有个 FastVLM 吗,很快运行条件也低
    monkeyWie
        9
    monkeyWie  
       2025 年 5 月 23 日
    不对,是叫 smolvlm
    wyntalgeer
        10
    wyntalgeer  
       2025 年 5 月 23 日
    @chanlk #3 那就弄 N 个出来
    raydied
        11
    raydied  
       2025 年 5 月 23 日
    @chanlk yolo 的 coco 集就有多达 80 种物品识别。
    而且属于预训练模型,训练成本很低的。
    chanlk
        12
    chanlk  
    OP
       2025 年 5 月 23 日
    @hwdq0012 移动侦测老古董了,一点风吹草动给你告警。
    hwdq0012
        13
    hwdq0012  
       2025 年 5 月 23 日
    @chanlk 那异常模型呢 patchcore 之类的,用大量正例训练,检测反例
    leven87
        14
    leven87  
       2025 年 5 月 23 日
    自己训练最灵活,或者找一个别人的模型,自己调参
    chanlk
        15
    chanlk  
    OP
       2025 年 5 月 23 日
    @lyxxxh2 #5 是实际场景,从网上找出来的。给你看一个示例。
    sleeepyy
        16
    sleeepyy  
       2025 年 5 月 23 日
    gemini api 很便宜效果也不错
    chanlk
        17
    chanlk  
    OP
       2025 年 5 月 23 日
    @raydied 安防场景不是很适用,里面很多的衣服鞋子、运动物品、家庭电器什么的。
    byteX
        18
    byteX  
       2025 年 5 月 23 日
    收藏一下 期待 小而美的解决方案
    chanlk
        19
    chanlk  
    OP
       2025 年 5 月 23 日
    @wyntalgeer 有这么想过,但是怕弄出来效果也不好。
    wyntalgeer
        20
    wyntalgeer  
       2025 年 5 月 23 日
    @chanlk #19 玩 YOLO 不要想着一劳永逸,一开始效果注定不好,但是你要给一个“疑似”报警并收集下来,继续训。迭代久了就值钱了
    rockdodos
        21
    rockdodos  
       2025 年 5 月 23 日
    Qwen 微调效果还行
    bluesenzhu
        22
    bluesenzhu  
       2025 年 5 月 23 日
    摄像头厂家不是吹自己就能告警吗
    encro
        23
    encro  
       2025 年 5 月 23 日
    既然放在卧室,那么如何识别男女主人是在造人还是在家暴?
    clemente
        24
    clemente  
       2025 年 5 月 23 日
    找海康威视贴牌 OEM
    chanlk
        25
    chanlk  
    OP
       2025 年 5 月 23 日
    @encro 额,如果是大模型的话,NSFW 的内容不知道会怎么处理,晚上回家测一下
    chanlk
        26
    chanlk  
    OP
       2025 年 5 月 23 日
    @bluesenzhu 最早期移动侦测、声音告警,近些年有人体告警(装了红外感应),或者有一些人体侦测算法集成在摄像机里。稍微复杂的识别摄像机带不动。
    chanlk
        27
    chanlk  
    OP
       2025 年 5 月 23 日
    @rockdodos 怎么微调呀,你试过吗?
    rockdodos
        28
    rockdodos  
       2025 年 5 月 23 日
    @chanlk #27 用 LLaMA-Factory 微调,看官方文档调的。
    wanghui22718
        29
    wanghui22718  
       2025 年 5 月 23 日
    https://www.corerain.com/solution
    端侧解决方案,了解一下
    Liftman
        30
    Liftman  
       2025 年 5 月 23 日
    你这个还不够低。来。让我掏出来一个给你。https://github.com/apple/ml-fastvlm 500m 的小模型。我在 mac 上跑。100ms 一次解析都嫌慢。不过再快也没意义了。。毕竟看不清了已经。。。。
    Liftman
        31
    Liftman  
       2025 年 5 月 23 日   ❤️ 1
    https://github.com/ngxson/smolvlm-realtime-webcam 用这个项目跑我楼上的模型比较简单。。
    zzhpeng
        32
    zzhpeng  
       2025 年 5 月 23 日
    实时分析好吃带宽,如果远端录像识别
    byteX
        33
    byteX  
       2025 年 5 月 23 日
    @rockdodos #21 请问是 Qwen-VL 吗?
    openmynet
        34
    openmynet  
       2025 年 5 月 25 日
    可以测试下用 clip 做零样本分类
    yuxian
        35
    yuxian  
       2025 年 5 月 26 日   ❤️ 1
    很简单,分为多部分。方便吹牛 B ;
    1 ,在终端,使用通用的 YOLO ,嵌入端,可以用压缩好的模型。性能佳。无需训练。直接调用 sdk ,即可使用。作为泛用场景监控。只需要有疑似的图像,视频片段上传即可,精度可以自行根据严格模式调节。
    2 ,在服务端,处理终端上传的疑似数据。优先使用自训练的 yolo 。对于依然无法确认的,可以调用视觉大模型,再次核对。如果依然无法确定结果的,人工接入审核。
    AmaQuinton
        36
    AmaQuinton  
       2025 年 5 月 26 日
    项目上用过某个研究院提供的 api ,用于道路违停和火灾预警实时监测
    chanlk
        37
    chanlk  
    OP
       2025 年 5 月 26 日
    @Liftman #31 要用 mac 才能跑吗,我有个老 mac ,Intel 时代的了,跑得动吗?
    chanlk
        38
    chanlk  
    OP
       2025 年 5 月 26 日
    @yuxian 终端暂时不考虑了,我们的设备有部分是第三方的。感觉还是直接上大模型算了了,我们人太少、资源不足搞不了 yolo ,这事儿从头到尾就我一个人干.....
    Liftman
        39
    Liftman  
       2025 年 5 月 26 日
    @chanlk 无所谓啊。https://github.com/ngxson/smolvlm-realtime-webcam 用这个项目跑我楼上的模型比较简单。。这个直接跑。不需要 mac 。
    ch3nOr
        40
    ch3nOr  
       2025 年 11 月 14 日
    大佬最后怎么处理了,我也遇到差不多的场景,请教一下
    chanlk
        41
    chanlk  
    OP
       2025 年 11 月 17 日   ❤️ 1
    @ch3nOr aws nova-lite,这个模型足够便宜
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3367 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 12:01 · PVG 20:01 · LAX 04:01 · JFK 07:01
    ♥ Do have faith in what you're doing.