• 请不要在回答技术问题时复制粘贴 AI 生成的内容
wcwcxiaobin
V2EX  ›  程序员

有没有比 whisper large v3 更准更强的

  •  
  •   wcwcxiaobin · 10h 54m ago · 786 views
    我平时用来输出词级字幕,最近测试了 qwen 的 asr 感觉准确率和时间戳都不是很准啊。。
    11 replies    2026-06-02 23:58:52 +08:00
    106npo
        1
    106npo  
       10h 52m ago
    比 large v3 更准的是 medium. large 不管是中文还是日文,幻觉太多了
    heartleo
        2
    heartleo  
       10h 50m ago
    380cc
        3
    380cc  
       10h 30m ago
    @106npo 想问问,whisper large v3 精准度比 large v2 好吗?我记得我以前用的时候,large v3 结果比 large v2 要差啊,用的 whisper kit.
    ahci
        4
    ahci  
       10h 25m ago
    感觉 v3 不如 v2 ,尤其是处理日语方面
    neteroster
        5
    neteroster  
       10h 24m ago via Android
    那太多了,中文的话豆包,多语言的话

    elevenlabs ,soniox
    wcwcxiaobin
        6
    wcwcxiaobin  
    OP
       10h 17m ago
    @106npo 我一直以为它这个模型越大,越准,时间戳也越准
    wcwcxiaobin
        7
    wcwcxiaobin  
    OP
       10h 17m ago
    @ahci 你是懂日语的
    jackOff
        8
    jackOff  
       10h 5m ago
    https://github.com/RVC-Boss/GPT-SoVITS 这个项目我用 whisper large v3 跑似乎还行?其他的没有测过
    106npo
        9
    106npo  
       10h 2m ago
    @380cc v3 在大多数情况下没 v2 好,我曾经记得 openai 自己也承认这一点,不过现在找不到来源了.
    wcwcxiaobin
        10
    wcwcxiaobin  
    OP
       9h 58m ago
    @106npo 那我试试 v2
    m1nm13
        11
    m1nm13  
       1h 39m ago
    反正我是觉得 Whisper 已经过时了,而且过时好几年了。

    sensevoice 这类比较新的非自回归的模型,可能效果都比它好。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1270 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 43ms · UTC 17:38 · PVG 01:38 · LAX 10:38 · JFK 13:38
    ♥ Do have faith in what you're doing.