1
Nosub 309 天前 via iPhone
提取音频内容,语音识别内容,然后把文字内容喂给它。
|
2
Nosub 309 天前 via iPhone
补充一点,如果要一帧一帧的分析视频视频画面以及结合音频应该也是可以的,应该也有很多公司已经在做了,但是你直接丢一个视频外部链接给 ChatGPT ,是不是有点难,试想一个场景,比如一个外链,视频 2 小时,是流媒体,难道要 ChatGPT 在这个网站观看 2 小时,然后再给你结果。
|
3
Evergreen 309 天前 via Android
@Nosub 应该不对吧,ai“观看”视频和人类不一样吧,人类需要两小时是因为需要分析视频画面内容,而 ai 处理信息的方法不一样且速度快多了
|
4
xyy003 309 天前 via iPhone
可以看看这个项目: https://github.com/disingn/cliptalk
|
5
dji38838c 309 天前
GPTs 里面不就有 Free YouTube Summarizer 吗?
|
6
JensenQian 309 天前
现在好多都是
音频转文字,文字总结就完事 |
7
canxin 309 天前 via iPhone
大多数应该都是先提取字幕再总结内容吧?语音转文字用的时间可太久了
|
8
SillyGod 309 天前 via Android
最简单的是直接识别音频总结
最完整的是音频+视频逐帧分析 |
9
callmesmc 309 天前 via iPhone
总之不管怎么样都必须文字喂给他,有字幕就字幕,没字幕就创造字幕..
|
10
vincentqi 309 天前
https://bibigpt.co/r/VfmiZN
一个链接总结主流音视频文字媒体概要 |
11
yanyao233 309 天前 via Android
普遍采用的方案就是音频转文字
逐帧截取也不是不行,但成本太高、耗时太长,不划算 |
12
abc500 309 天前 via Android
poe 上好多个这样的 但现在用不了 不知道为什么 好像不是提取字幕 而是客户评价 我不确定
|
14
winterx 309 天前
很好奇 B 站的小助手是怎么实现提取这么精准的
|
15
smalltong02 309 天前
gemini 可以处理 2 分钟以内的视频
|
16
smalltong02 309 天前
如果你可以把音频提取出来,也可以试一下 Qwen-Audio-Chat 模型,它可以按照自然语言的要求处理音频,比如列出音频内容的提纲。
|
17
Nosub 309 天前 via iPhone
@Evergreen 这里的问题不是查看方式的问题,是爬虫的问题,我特意说了流媒体,就是你不能一次性获取完整的视频,ChatGPT 还没有强大到可以爬取任意视频。
|
19
yanyao233 309 天前 via Android
@smalltong02 才知道有这么个模型 看起来有点意思
|
20
bugu1986 309 天前 via iPhone
字幕 https://github.com/buhe/langchain-swift 手机不方便,用 youtubeloader
|
22
Byzliu 308 天前 via Android
阿里云的通义听悟把语音转文字再发给 GPT
|