我平时用来输出词级字幕,最近测试了 qwen 的 asr 感觉准确率和时间戳都不是很准啊。。
1
106npo 10h 52m ago
比 large v3 更准的是 medium. large 不管是中文还是日文,幻觉太多了
|
2
heartleo 10h 50m ago
|
3
380cc 10h 30m ago
@106npo 想问问,whisper large v3 精准度比 large v2 好吗?我记得我以前用的时候,large v3 结果比 large v2 要差啊,用的 whisper kit.
|
4
ahci 10h 25m ago
感觉 v3 不如 v2 ,尤其是处理日语方面
|
5
neteroster 10h 24m ago via Android
那太多了,中文的话豆包,多语言的话
elevenlabs ,soniox |
6
wcwcxiaobin OP @106npo 我一直以为它这个模型越大,越准,时间戳也越准
|
7
wcwcxiaobin OP @ahci 你是懂日语的
|
8
jackOff 10h 5m ago
https://github.com/RVC-Boss/GPT-SoVITS 这个项目我用 whisper large v3 跑似乎还行?其他的没有测过
|
10
wcwcxiaobin OP @106npo 那我试试 v2
|
11
m1nm13 1h 39m ago
反正我是觉得 Whisper 已经过时了,而且过时好几年了。
sensevoice 这类比较新的非自回归的模型,可能效果都比它好。 |