请问: 如何让 chatGPT 总结视频的内容?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 309 天前的主题，其中的信息可能已经有所发展或是发生改变。

发了视频链接给 chatGPT, 返回: 抱歉，我无法访问外部链接或查看特定的在线视频内容

请问: 如何让 chatGPT 总结视频的内容? 谢谢

chatgpt

视频

请问

链接

22 条回复 • 2024-02-14 09:56:23 +08:00

Nosub

309 天前 via iPhone

提取音频内容，语音识别内容，然后把文字内容喂给它。

Nosub

309 天前 via iPhone

补充一点，如果要一帧一帧的分析视频视频画面以及结合音频应该也是可以的，应该也有很多公司已经在做了，但是你直接丢一个视频外部链接给 ChatGPT ，是不是有点难，试想一个场景，比如一个外链，视频 2 小时，是流媒体，难道要 ChatGPT 在这个网站观看 2 小时，然后再给你结果。

Evergreen

309 天前 via Android

@Nosub 应该不对吧，ai“观看”视频和人类不一样吧，人类需要两小时是因为需要分析视频画面内容，而 ai 处理信息的方法不一样且速度快多了

xyy003

309 天前 via iPhone

可以看看这个项目： https://github.com/disingn/cliptalk

dji38838c

309 天前

GPTs 里面不就有 Free YouTube Summarizer 吗？

JensenQian

309 天前

现在好多都是
音频转文字，文字总结就完事

canxin

309 天前 via iPhone

大多数应该都是先提取字幕再总结内容吧？语音转文字用的时间可太久了

SillyGod

309 天前 via Android

最简单的是直接识别音频总结
最完整的是音频+视频逐帧分析

callmesmc

309 天前 via iPhone

总之不管怎么样都必须文字喂给他，有字幕就字幕，没字幕就创造字幕..

vincentqi

309 天前

https://bibigpt.co/r/VfmiZN
一个链接总结主流音视频文字媒体概要

yanyao233

309 天前 via Android

普遍采用的方案就是音频转文字

逐帧截取也不是不行，但成本太高、耗时太长，不划算

abc500

309 天前 via Android

poe 上好多个这样的但现在用不了不知道为什么好像不是提取字幕而是客户评价我不确定

xyy003

309 天前 via iPhone

@yanyao23 逐帧和视频字幕结合是最好的嘎嘎准

winterx

309 天前

很好奇 B 站的小助手是怎么实现提取这么精准的

smalltong02

309 天前

gemini 可以处理 2 分钟以内的视频

smalltong02

309 天前

如果你可以把音频提取出来，也可以试一下 Qwen-Audio-Chat 模型，它可以按照自然语言的要求处理音频，比如列出音频内容的提纲。

Nosub

309 天前 via iPhone

@Evergreen 这里的问题不是查看方式的问题，是爬虫的问题，我特意说了流媒体，就是你不能一次性获取完整的视频，ChatGPT 还没有强大到可以爬取任意视频。

imliukai

309 天前

@dji38838c YouTube 官方提供了视频字幕的接口，所以总结 YouTube 视频会简单很多。

yanyao233

309 天前 via Android

@smalltong02 才知道有这么个模型看起来有点意思

bugu1986

309 天前 via iPhone

字幕 https://github.com/buhe/langchain-swift 手机不方便，用 youtubeloader

YsHaNg

308 天前 via iPhone

@Nosub TensorRT-LLM maybe 可以

Byzliu

308 天前 via Android

阿里云的通义听悟把语音转文字再发给 GPT