HMYang33

据说这是目前全世界最快的文本推理速度

  •  
  •   HMYang33 · 22h 10m ago · 2031 views
    下面是我自己搭桥过来的体验页,国内有一部分网络环境会发不出请求,也有可能打不开页面,换成 wifi 或者流量多试一试。

    http://hmyang33.3vfree.vip/fast_llm/

    搭桥链路:cerebras.ai <-> vercel 免费美国节点 <-> 廉价的香港 VPS <-> 廉价的香港静态页托管

    因为接入的都是廉价或免费的服务,体验的人又很多,源头 cerebras.ai 给的免费 api 也有很多限制,vercel 也可能会偶尔出问题。

    所以不稳定是常见的,出错就稍后再试试,主要是给兄弟们体验一下世界最快的 token 生成速度。

    cerebras.ai 是源头,标称 gpt-oss-120b 每秒生成 3k 个词元,个人实际体验就 1.7k 左右

    ---------
    不要说 apikey 暴露的问题了,反正是免费的 key ,无门槛申请点击就送
    Supplement 1  ·  19h 18m ago
    我的免费 api 今日限额了,自己搭建或者明天再来体验吧
    22 replies    2026-06-04 09:59:04 +08:00
    clemente
        1
    clemente  
       22h 6m ago
    其实是模型拆到 硬件的 sip core 里面了 通常只能定制模型
    monkey110
        2
    monkey110  
       21h 59m ago
    真快,我还在等一字字吐的时候直接腹泻式刷了一大页
    fe619742721
        3
    fe619742721  
       21h 58m ago
    这速度确实有点夸张,如果最近的模型能做到这个速度,agent 执行会快很多啊。。这个模型能力怎么样,gpt-oss-120b
    maskerTUI
        4
    maskerTUI  
       21h 30m ago
    快的有点离谱了
    7gugu
        5
    7gugu  
       21h 9m ago
    非常看好这个方向,模型硬件化只是迟早的事情,成本都是可以优化的
    tf2
        6
    tf2  
       21h 8m ago
    全世界最快?

    https://chatjimmy.ai/

    不服来比比?
    HMYang33
        7
    HMYang33  
    OP
       20h 57m ago
    @tf2 被吓到了,快的跟假的一样
    HMYang33
        8
    HMYang33  
    OP
       20h 54m ago
    @tf2 不过模型质量有点太差了,代码很空洞,翻译牛头不对马嘴,普通的问题基本得不到有价值的答案
    tf2
        9
    tf2  
       20h 49m ago
    @HMYang33 Llama 3.1 8B 老模型了。这个也是“电路焊死” 那种没法升级模型的。
    loveshuyuan
        10
    loveshuyuan  
       20h 43m ago
    为啥我的号没有免费额度
    xing7673
        11
    xing7673  
       20h 40m ago
    之前用 cerebras 来处理我的一个 agent ,没有用流式 completion ,还感受不到它有多快,这个确实很快
    memos
        12
    memos  
       20h 16m ago
    小孩吓哭了,真快
    busln
        13
    busln  
       19h 52m ago
    @tf2 还要高手?
    0754
        14
    0754  
       19h 28m ago
    卧槽???
    Kiriya
        15
    Kiriya  
       19h 24m ago
    这速度离谱啊,这已经不是在烧 token 了,而是在核爆 token 了
    regent
        16
    regent  
       19h 18m ago
    这家的免费 key 是有每分钟和每日请求量限制的,不过确实很快,不体验不知道其先进性
    popyui
        17
    popyui  
       4h 11m ago
    400token/s
    燃起来了
    Tink
        18
    Tink  
    PRO
       3h 43m ago
    牛逼
    Tink
        19
    Tink  
    PRO
       3h 41m ago
    @tf2 #6 这是真的还是假的?
    tf2
        20
    tf2  
       3h 21m ago
    Tink
        21
    Tink  
    PRO
       2h 54m ago
    @tf2 #20 别管对不对,你就说快不快就完了
    tf2
        22
    tf2  
       2h 52m ago
    @Tink 它家这个技术路线必须根据模型定制电路。周期很长。立项的时候开源模型 qwen 2.x 之类的恐怕更烂。

    这个 demo 而且走的是一个很偏门的 q3 量化。所以效果不好

    但是足以证明技术路线没问题。如果能搞出来个 qwen3.6 27B 就会吓死人。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3692 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 82ms · UTC 04:51 · PVG 12:51 · LAX 21:51 · JFK 00:51
    ♥ Do have faith in what you're doing.