各位 AI 大佬，目前有流式输入的 llm 吗？有支持这个功能吗？

流式

LLM

输入

9 replies • 2026-06-08 20:38:07 +08:00

1

KisekiRemi

11 days ago

流式输入？输出流式最主要的是用户侧的使用体验。参考了 AVG 游戏里的文本显示形式。至于输入...你在输入的状态下就是流式的嘛

2

SoulFlame

11 days ago

我能想到的产品就是火山引擎的豆包实时语音对话 2.0 ，我之前接入语音合成接触过一点。
他的语音输入、输出是流式的，输出也可以转成文字直接输出。但这个产品可能不是完全适合你用

3

jixiwen2013

11 days ago

@SoulFlame 流式音频输入是 ASR 的常规操作，但是 llm 什么场景下会需要流式输入我没太想明白，你说的那个应该也是为了流式 ASR 而已

4

frantic

9 days ago

流式输入是什么意思？语音对话的场景吗？

5

Liu6

OP

9 days ago

场景为类似一个会议纪要的一个东西，但是实时性要求比较高。然后现在目前的流程得超过 4 秒。目前是 vad 判断说话人，然后 asr 。通过 vad 静默截断代表一个人说话完成。然后把文本输出给 llm 。llm 流式输出展示。llm 是多个 agent ，有并行也有非并行。现在想知道有没有 llm 能支持流式输入的。
@KisekiRemi #1
@SoulFlame #2
@jixiwen2013 #3
@frantic #4
@frantic #4

6

Liu6

OP

9 days ago

如果 llm 能支持流式输入的话。假设 llm 为判断用户是否在询问天气，输出是/否
流式输入：1. 你好输出：否-或者不输出
2. 今天输出：否-或者不输出
3. 北京天。输出：否-或者不输出
4. 如何。输出：是

7

Liu6

OP

9 days ago

4. 气如何。输出：是

8

Liu6

OP

9 days ago

同时想咨询一下这个场景有好的方案吗？用户实时输入，llm 输出为 2 秒。也就是意味着消费时间 < 生产时间。
然后又需要依赖上下文且要求又需要近实时。那么会出现一个问题为调用 agent 的时候会并发。

例子：
0 秒输入：你好 llm 输出 2 秒历史消息摘要为空
1 秒输入：世界 llm 输出 2 秒历史消息摘要为 “摘要：你好“，实际会为空。
因为当用户 1 秒输入：世界的时候，上一个 llm 还在运行，此刻会再次运行一次 llm 。因为不能等待第一个 llm 的结果，然后再运行 llm （无法同步，因要求近实时）。如果采用后台任务就会出现例子中的问题

9

jixiwen2013

8 days ago via iPhone

你这场景非要这么实时吗？ llm 现在很快了，你这个是卡在 asr 阶段了吧？

各位 AI 大佬， 目前有流式输入的 llm 吗？ 有支持这个功能吗？

各位 AI 大佬，目前有流式输入的 llm 吗？有支持这个功能吗？