爱意满满的作品展示区。
xuxin123122

开源实时数字人 OpenTalking 本地化部署演示!

  •  
  •   xuxin123122 · 1 day ago · 763 views

    V 站大佬们好猛!我都没怎么宣传就 900stars 了! 这次我们把 sensevoice-small(ASR 语音转文本) cosyvoice-0.5B(TTS 文本转语音)也加入本地部署,目前仅需要 <8Gb 显存就可以部署。选择 cosyvoice-0.5B 的原因是它不仅语音效果好,同时还支持音色克隆。我们计划再尝试接入一些更小尺寸的模型,来供大家本地部署选择~

    Imgur

    不过还是希望大家除了关注以外,能多多使用起来给我们提意见!甚至可以贡献代码,我们一起做个好的开源项目。我们的开源协议是 Apache-2.0 license, 是实打实的开源,大家可以拿去做二次开发商业化的~所以加入我们一起贡献吧!

    Github 传送门: https://github.com/datascale-ai/opentalking

    视频演示: https://www.bilibili.com/video/BV1vn5F6fEwm/?vd_source=4820076c616e58ceb357c528a571ff11

    3 replies    2026-06-01 23:32:28 +08:00
    Xhack
        1
    Xhack  
       1 day ago
    冒昧一下问一下,这个数字人就只有嘴巴能动吗?
    cobola
        2
    cobola  
       1 day ago
    @Xhack 哈哈哈
    xuxin123122
        3
    xuxin123122  
    OP
       1 day ago
    @Xhack 取决于用什么模型啦 还有选择的资产 如果选择的是视频资产 其实那个视频会反复播放(主要是人的呼吸感)

    如果使用高性能的模型比如 flashtalking(diffusion-based 模型),整个人都会动哦。你可以看一下 github 主页的演示视频: https://github.com/datascale-ai/opentalking
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   980 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 19:46 · PVG 03:46 · LAX 12:46 · JFK 15:46
    ♥ Do have faith in what you're doing.