低成本识图方案？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 235 天前的主题，其中的信息可能已经有所发展或是发生改变。

目前正在预研一个低成本的识图方案，场景是家用安防摄像机的。

目前调研了有两个方向

一个是以 yolo 、aws rekonition 为代表的传统的 CNN 识图方案，
其中 yolo 面临的问题是现成的模型有标签不足够覆盖场景，要自己训练心里没底
直接用 aws rekonition 的成本很高，谈了折扣算下来也还是很高

传统方案有另一个弊端就是对于抽象的"词"无法理解,比如想要对"危险情况"做识别，只能分解到具体的事物，比如火焰、枪支、刀具等。

另一个是走大模型的识图方向
1. 自己部署开源模型，Qwen2.5 VL 系列和 Janus-Pro ，7B 和 32B 都试了，感觉效果不佳
2. 调 Api ，试了几家，发现 aws nova 在价格和效果上都很不错

我纯后端开发，计算机视觉和大模型方面是个小白
站内的大佬有在这方面有经验的吗，有什么经验可以分享一下，谢谢你~

低成本

识别

方案

41 条回复 • 2025-11-17 09:37:33 +08:00

kuro1

2025 年 5 月 23 日

YOLO 自己训练

jimrok

2025 年 5 月 23 日

你这个方向不是图像识别和事态感知的内容吗，军工和自动驾驶行业的人能帮你判断一下吧。

chanlk

2025 年 5 月 23 日

@kuro1 我看 YOLO 很多的应用场景在 B 端，聚焦的场景很单一，我们这个是家用的场景，用户可能放在卧室、客厅、户外都有可能，而且场景里会出现的物品和事件太多了，感觉很难弄一个通用的 YOLO 模型出来。

chanlk

2025 年 5 月 23 日

@jimrok 事态感知？没见过这个名词，我去查查看。我们是做 C 端的哈，就是最常见的家用安防摄像机。

lyxxxh2

2025 年 5 月 23 日

但是 api 不错,真的是实际场景图吗?
我用 grok chat,前几张好识别的,确实可以回答出来。
但是不好识别的,一样 gg 。

yolo:
安防数据集,算是挺常见的。
去网上找训练好的模型,让 ai 帮你测试。
数据集也行,自己训练下。

lyxxxh2

2025 年 5 月 23 日

https://docs.ultralytics.com/zh/guides/security-alarm-system/
如果你找好了模型,自己都不用写什么代码,官方都有示例。

hwdq0012

2025 年 5 月 23 日

安防一般不是用目标识别吧，一般是移动侦测，姿态分析（摔倒）

monkeyWie

2025 年 5 月 23 日

最近不是有个 FastVLM 吗，很快运行条件也低

monkeyWie

2025 年 5 月 23 日

不对，是叫 smolvlm

wyntalgeer

2025 年 5 月 23 日

@chanlk #3 那就弄 N 个出来

raydied

2025 年 5 月 23 日

@chanlk yolo 的 coco 集就有多达 80 种物品识别。
而且属于预训练模型，训练成本很低的。

chanlk

2025 年 5 月 23 日

@hwdq0012 移动侦测老古董了，一点风吹草动给你告警。

hwdq0012

2025 年 5 月 23 日

@chanlk 那异常模型呢 patchcore 之类的，用大量正例训练，检测反例

leven87

2025 年 5 月 23 日

自己训练最灵活，或者找一个别人的模型，自己调参

chanlk

2025 年 5 月 23 日

@lyxxxh2 #5 是实际场景，从网上找出来的。给你看一个示例。

sleeepyy

2025 年 5 月 23 日

gemini api 很便宜效果也不错

chanlk

2025 年 5 月 23 日

@raydied 安防场景不是很适用，里面很多的衣服鞋子、运动物品、家庭电器什么的。

byteX

2025 年 5 月 23 日

收藏一下期待小而美的解决方案

chanlk

2025 年 5 月 23 日

@wyntalgeer 有这么想过，但是怕弄出来效果也不好。

wyntalgeer

2025 年 5 月 23 日

@chanlk #19 玩 YOLO 不要想着一劳永逸，一开始效果注定不好，但是你要给一个“疑似”报警并收集下来，继续训。迭代久了就值钱了

rockdodos

2025 年 5 月 23 日

Qwen 微调效果还行

bluesenzhu

2025 年 5 月 23 日

摄像头厂家不是吹自己就能告警吗

encro

2025 年 5 月 23 日

既然放在卧室，那么如何识别男女主人是在造人还是在家暴？

clemente

2025 年 5 月 23 日

找海康威视贴牌 OEM

chanlk

2025 年 5 月 23 日

@encro 额，如果是大模型的话，NSFW 的内容不知道会怎么处理，晚上回家测一下

chanlk

2025 年 5 月 23 日

@bluesenzhu 最早期移动侦测、声音告警，近些年有人体告警(装了红外感应)，或者有一些人体侦测算法集成在摄像机里。稍微复杂的识别摄像机带不动。

chanlk

2025 年 5 月 23 日

@rockdodos 怎么微调呀，你试过吗？

rockdodos

2025 年 5 月 23 日

@chanlk #27 用 LLaMA-Factory 微调，看官方文档调的。

wanghui22718

2025 年 5 月 23 日

https://www.corerain.com/solution
端侧解决方案，了解一下

Liftman

2025 年 5 月 23 日

你这个还不够低。来。让我掏出来一个给你。https://github.com/apple/ml-fastvlm 500m 的小模型。我在 mac 上跑。100ms 一次解析都嫌慢。不过再快也没意义了。。毕竟看不清了已经。。。。

Liftman

2025 年 5 月 23 日

https://github.com/ngxson/smolvlm-realtime-webcam 用这个项目跑我楼上的模型比较简单。。

zzhpeng

2025 年 5 月 23 日

实时分析好吃带宽，如果远端录像识别

byteX

2025 年 5 月 23 日

@rockdodos #21 请问是 Qwen-VL 吗？

openmynet

2025 年 5 月 25 日

可以测试下用 clip 做零样本分类

yuxian

2025 年 5 月 26 日

很简单，分为多部分。方便吹牛 B ；
1 ，在终端，使用通用的 YOLO ，嵌入端，可以用压缩好的模型。性能佳。无需训练。直接调用 sdk ，即可使用。作为泛用场景监控。只需要有疑似的图像，视频片段上传即可，精度可以自行根据严格模式调节。
2 ，在服务端，处理终端上传的疑似数据。优先使用自训练的 yolo 。对于依然无法确认的，可以调用视觉大模型，再次核对。如果依然无法确定结果的，人工接入审核。

AmaQuinton

2025 年 5 月 26 日

项目上用过某个研究院提供的 api ，用于道路违停和火灾预警实时监测

chanlk

2025 年 5 月 26 日

@Liftman #31 要用 mac 才能跑吗，我有个老 mac ，Intel 时代的了，跑得动吗？

chanlk

2025 年 5 月 26 日

@yuxian 终端暂时不考虑了，我们的设备有部分是第三方的。感觉还是直接上大模型算了了，我们人太少、资源不足搞不了 yolo ，这事儿从头到尾就我一个人干.....

Liftman

2025 年 5 月 26 日

@chanlk 无所谓啊。https://github.com/ngxson/smolvlm-realtime-webcam 用这个项目跑我楼上的模型比较简单。。这个直接跑。不需要 mac 。

ch3nOr

2025 年 11 月 14 日

大佬最后怎么处理了，我也遇到差不多的场景，请教一下

chanlk

2025 年 11 月 17 日

@ch3nOr aws nova-lite,这个模型足够便宜