V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
terryops
V2EX  ›  分享创造

做了一个结合多种 AI 模型的一站式字幕平台,同时也提供 API

  •  
  •   terryops · 339 天前 · 2002 次点击
    这是一个创建于 339 天前的主题,其中的信息可能已经有所发展或是发生改变。

    分享一个我们正在做的产品--快转字幕 https://www.kzzimu.com ,目标是海外市场,先在国内试试水,de 下 bug 。

    下面我跟大家分享技术、经验和资源哈。

    一句话介绍

    是基于 Whisper 魔改版,实现音视频转字幕,GPT-4 翻译加润色,识别说话人,字幕智能重排的一站式音视频平台。

    V 友们肯定会说,XX 、XXX 和 XXXX 不都有这些东西?

    我们的优势是:

    1. 无须显卡,云端速度非常快。
    2. 普通用户可以免费使用。
    3. 傻瓜式,用户不需要有任何技术,不需要去搞什么 Key 。
    4. 解决很多 AI 模型的输出不稳定问题,保证结果的稳定性。
    5. 有一个体验非常好的字幕编辑器和文件管理系统。

    对我们的产品的技术实现感兴趣的话,可以留言,我会分享一些技术细节。比如,我们的说话人识别,用的是 NVIDIA 的 Nemo 。

    API

    另外,V 友如果想要在自己的产品上快速实现我们现在的功能,我们也做了 API 可以对接,比如我们支持 2 小时以内,100M 的不分段的音频识别。

    一些 todo

    1. 提取音频的纯人声、纯背景(已经做好,测试上线)
    2. 海外版(架构一开始就是面向全球,现在正在准备外文资料和服务器架构)
    3. 下载合并了字幕的视频文件。(已经设计好)
    4. 根据字幕的剪辑功能。(新建文件夹)
    21 条回复    2024-01-05 18:29:45 +08:00
    webjourneyer
        1
    webjourneyer  
       339 天前
    哇,我们正好也在开始做这块的,希望楼主能分享更多细节
    terryops
        2
    terryops  
    OP
       339 天前
    @webjourneyer 多搞搞差异化吧。你想知道哪部分的细节?
    webjourneyer
        3
    webjourneyer  
       339 天前
    @terryops 目前我们基于 whisper 也搞了一个字幕提取的(主要是参考开源的应用),但我就一直没办法像楼主你那样搞成网站的形式来调用进行调用,你们边播放边把字幕实时搞进去是怎么处理的呀
    Cellinlab
        4
    Cellinlab  
       339 天前
    加个音色识别吧,这样能吊打市面上 99%字幕识别工具了,给字幕加上角色
    terryops
        5
    terryops  
    OP
       339 天前
    @Cellinlab 我们可以识别说话人,区分 1 、2 、3 、4 、5 、6 这样,但是具体这个人是谁,需要音色的向量保存下来,然后人工标注。
    目前我们的产品主要定位是视频创作者,用户可以手动标注说话人的名字,目前来看是够用的。
    terryops
        6
    terryops  
    OP
       339 天前
    @webjourneyer 这个很简单,是浏览器自带的功能,用那个 WebVTT 的格式,就能挂载字幕了。
    lidedongsn
        7
    lidedongsn  
       339 天前
    这个特色是转字幕,有没有想过加强剪辑的能力
    lidedongsn
        8
    lidedongsn  
       339 天前
    还有就是基于识别字幕的文本内容结合当前的大模型能力,生成视频摘要还有智能剪辑
    Cellinlab
        9
    Cellinlab  
       339 天前
    @terryops 挺好,我觉得你可以和他们谈下合作 https://www.33subs.com/contact
    webjourneyer
        10
    webjourneyer  
       339 天前
    @terryops 感谢,我研究下
    terryops
        11
    terryops  
    OP
       339 天前
    @Cellinlab 他们有个雷同的产品呀,这是竞争关系哈哈哈
    terryops
        12
    terryops  
    OP
       339 天前
    @lidedongsn 谢谢,这块我们研究下能做到什么个程度。
    Andim
        13
    Andim  
       339 天前
    试了下中文比原生的 Whisper 还是要差点,原生 Whisper 能识别中文 80%

    https://www.kzzimu.com/result/94f99bd0e6f59046222957b506ded023

    https://gcdnb.pbrd.co/images/wIzlPpehs9tW.png?o=1

    只识别出四句
    音频是 李千那 的 延禧攻略
    deiphi
        14
    deiphi  
       339 天前
    试了一下,跟 Whisper large v3 出来的字幕一模一样。
    terryops
        15
    terryops  
    OP
       339 天前
    @deiphi 我们是基于 Large-V2 ,V3 有很多问题,测试后弃用了。
    我们考虑到了很多边界的情况的处理,一个视频是测不出来质量差别滴。
    terryops
        16
    terryops  
    OP
       339 天前
    @Andim 可能是你的文件有问题,我把你发的链接直接下载视频下来,拖进去转录,能出全部歌词。
    [temp-Imagej-U4z-LX.jpg]( https://postimg.cc/JydH3tZR)
    terryops
        17
    terryops  
    OP
       339 天前
    <a href='https://postimg.cc/JydH3tZR' target='_blank'><img src='https://i.postimg.cc/JydH3tZR/temp-Imagej-U4z-LX.jpg' border='0' alt='temp-Imagej-U4z-LX'/></a>
    Andim
        18
    Andim  
       339 天前
    @terryops
    https://mega.nz/file/64VjFSRY#wHOazbwhbsSj7BJ2LnjTZco0Wx5SUzEdqlEH8Is0_DM
    这个音频我用 Whisper 识别是没问题的,不过 Whisper 对中文的错误率还是很高
    terryops
        19
    terryops  
    OP
       339 天前
    @Andim 你有没有发现你出现了李宗盛作词作曲这种幻听?然后 3 分 17 秒那句完全就错的。
    我们研究了很多这种问题,有很多解决方案,比如然后你那个文件有点问题,我们有个功能,去杂音。
    https://imgur.com/a/acOVSYO
    勾选之后就能识别了。
    https://imgur.com/a/AMVID1N
    另外 Whisper 对音质要求很高的,音质差,识别率就差,断句也会差。你那个 8mb 的 wav 文件,码率应该相当低。
    但是可以做一些音频处理,移除杂音。
    wswlaz
        20
    wswlaz  
       319 天前
    获取视频信息失败,请检查 URL 是否有效
    terryops
        21
    terryops  
    OP
       318 天前
    @wswlaz 在线视频?哪个平台的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1024 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 22:27 · PVG 06:27 · LAX 14:27 · JFK 17:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.