1
KisekiRemi 11 days ago
流式输入?输出流式最主要的是用户侧的使用体验。参考了 AVG 游戏里的文本显示形式。至于输入...你在输入的状态下就是流式的嘛
|
2
SoulFlame 11 days ago
我能想到的产品就是火山引擎的 豆包实时语音对话 2.0 ,我之前接入语音合成接触过一点。
他的语音输入、输出是流式的,输出也可以转成文字直接输出。但这个产品可能不是完全适合你用 |
3
jixiwen2013 11 days ago
@SoulFlame 流式音频输入是 ASR 的常规操作,但是 llm 什么场景下会需要流式输入我没太想明白,你说的那个应该也是为了流式 ASR 而已
|
4
frantic 9 days ago
流式输入是什么意思? 语音对话的场景吗?
|
5
Liu6 OP 场景为类似一个会议纪要的一个东西, 但是实时性要求比较高。 然后现在目前的流程得超过 4 秒。 目前是 vad 判断说话人, 然后 asr 。 通过 vad 静默截断代表一个人说话完成。 然后把文本输出给 llm 。llm 流式输出展示。llm 是多个 agent ,有并行也有非并行。 现在想知道有没有 llm 能支持流式输入的。
@KisekiRemi #1 @SoulFlame #2 @jixiwen2013 #3 @frantic #4 @frantic #4 |
6
Liu6 OP 如果 llm 能支持流式输入的话。 假设 llm 为判断用户是否在询问天气, 输出 是/否
流式输入:1. 你好 输出:否-或者不输出 2. 今天 输出:否-或者不输出 3. 北京天。 输出: 否-或者不输出 4. 如何。 输出: 是 |
7
Liu6 OP 4. 气如何。 输出: 是
|
8
Liu6 OP 同时想咨询一下这个场景有好的方案吗? 用户实时输入,llm 输出为 2 秒。 也就是意味着 消费时间 < 生产时间。
然后又需要依赖上下文 且 要求又需要近实时。 那么会出现一个问题为调用 agent 的时候会并发。 例子: 0 秒输入:你好 llm 输出 2 秒 历史消息摘要为空 1 秒输入:世界 llm 输出 2 秒 历史消息摘要为 “摘要:你好“, 实际会为空。 因为当 用户 1 秒输入:世界的时候, 上一个 llm 还在运行, 此刻会再次运行一次 llm 。 因为不能等待第一个 llm 的结果,然后再运行 llm (无法同步,因要求近实时)。 如果采用后台任务就会出现 例子中的问题 |
9
jixiwen2013 8 days ago via iPhone
你这场景非要这么实时吗? llm 现在很快了,你这个是卡在 asr 阶段了吧?
|