如何实现音频自动断句

This topic created in 728 days ago, the information mentioned may be changed or developed.

请问现在的音频自动断句有没有通用的方法？

最近在做听写但是中间停顿的时间太短所以想要自动断句把停顿的时间延长就不用一直手动回退和暂停了

谢谢

[Edit] 识别音频的内容并非必要因为我有原文如果不需要识别音频内容就能断句会更好

13 replies • 2024-05-25 16:22:13 +08:00

Nosub

May 24, 2024 via iPhone

vad 了解一下。

vivisidea

May 24, 2024

1. vad +1 基本思路就是音频先转 pcm ，然后做 vad 切分
2. 偷懒的话可以直接调用 asr 供应商，百度/阿里之类的好像都会有点免费额度，一般返回 text 都带 timestamp 的，按照 timestamp 切就行

subtleworks

May 24, 2024

@Nosub 谢谢

subtleworks

May 24, 2024

@vivisidea 谢谢第一点有 vad 的库吗

vivisidea

May 24, 2024

@subtleworks #4 我知道有 python 的 https://pypi.org/project/webrtcvad-wheels/ ，你找找又没其它语言的，这个是 google 之前开源的 webrtcvad

lts9165

May 24, 2024

AS4694lAS4808

May 24, 2024 via Android

可以私有部署阿里的 funasr 带 punc 的模型，有时间戳

subtleworks

May 24, 2024

@vivisidea 好的谢谢

subtleworks

May 24, 2024

@lts9165 谢谢不过 python 我不会

subtleworks

May 24, 2024

@AS4694lAS4808 谢谢私有部署有点麻烦相比之下我还是用商用的免费额度吧

lts9165

May 24, 2024

@subtleworks 是 onnx 的模型，多种语言都可以调用

subtleworks

May 24, 2024

@lts9165 啊我看见了 web 版本的在这里 https://github.com/ricky0123/vad

1543544726zy

May 25, 2024

小米的没人用吗