最近在研究自动字幕,发现了这个程序:agermanidis/autosub。
这款程序可以做到实时生成 SRT 文件,我想问的是这款软件是怎么样做到生成时间轴的? 这块 分析语音的代码我没能看懂,麻烦能简单解释一下吗?提前感谢。
1
Geoion 2017-08-23 05:30:19 +08:00
代码没看完,这块代码大概是切分每句话的长度(帧)
|
2
starvedcat 2017-08-23 05:44:14 +08:00
看变量命名( is_silence, energy, threshold ),就是通过音量来判断的吧
|
3
starvedcat 2017-08-23 05:48:36 +08:00
看代码里面用到的 audioop.rms 函数的作用,就是在计算每个 chunk 的声音强度
https://docs.python.org/2/library/audioop.html#audioop.rms |