lwch's recent timeline updates
lwch

lwch

V2EX member #115633, joined on 2015-05-07 12:19:25 +08:00
无需量化,在树莓派上运行 LLaMA2 70B 模型
  •  2   
    分享创造  •  lwch  •  Oct 21, 2023  •  Lastly replied by lwch
    28
    分享一个新开发的 proxmox 监控数据 exporter
    分享创造  •  lwch  •  Aug 31, 2022  •  Lastly replied by lwch
    9
    natpass v0.7.2 版本发布,新增 Linux 远程桌面支持
    分享创造  •  lwch  •  Dec 10, 2021  •  Lastly replied by dianso
    3
    lwch's recent replies
    @allegory 我用他来实现了一个小型的 llama 模型大约 1.5 亿参数量在 CPU 上训练速度还行
    @allegory libtorch 跟着 pytorch 的版本走的,现在已经 2.2.2 了
    Oct 21, 2023
    Replied to a topic by lwch 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @rekulas 如果内存足够大的话可以增加--cache 和--fp32 缓存参数,每次加载参数速度很慢
    Oct 20, 2023
    Replied to a topic by lwch 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @rekulas 只实现模型推理的话其实并不复杂,要实现整个深度学习框架就非常麻烦。每个 tensor 的正向传播、反向传播、梯度计算等,我实现了一个 https://github.com/lwch/gotorch 库包装了 libtorch 库里面已经实现了上百个算子,这还只是 pytorch 中的一部分,想要实现一个完整的框架一个人难以完成。
    Oct 19, 2023
    Replied to a topic by lwch 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @kneo 今天做了不少优化,目前 7B 模型单机运行已经可降低到 1.2~1.6s/token ,但 CPU 并未全部跑满可能还有一定的优化空间
    Oct 19, 2023
    Replied to a topic by lwch 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @kneo 所以我上面也说了,单机的性能是有限的,想要提升整体性能只能靠堆集群来实现,目前为止这个项目还处于单机运行状态,至于说具体以哪种方式来做并行计算这个是需要实际测试的。我认为 go 语言天生就是高并发高吞吐量的代名词,因此我一开始就选用了 go 语言而不是其他的语言来进行开发,就 go 语言本身而言从单机版到集群版也更容易一些。

    另如果 10 台机器的集群计算性能可以达到 GPU 的一半,我觉得大部分的资本家也是可以接受的,毕竟总体成本下降了好几个数量级。
    Oct 19, 2023
    Replied to a topic by lwch 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @kneo 那再举个例子谷歌搜索核心代码也是 go 的,你觉得以他的体量计算量会很小吗,速度不是一样不慢的
    Oct 18, 2023
    Replied to a topic by lwch 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @kneo 再慢也能超过 python 不是吗
    Oct 18, 2023
    Replied to a topic by lwch 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @GeekGao 树莓派只是打个比方,你当然可以在云上申请几台机器来加快推理速度,这个项目的主要目标还是为了降低大模型的使用成本,使普通人也可以跑上 70B 模型
    Oct 18, 2023
    Replied to a topic by lwch 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
    @GeekGao 用这 1.6T 内存在高并发情况下,可以并行处理更多的 batch
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   847 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 19:47 · PVG 03:47 · LAX 12:47 · JFK 15:47
    ♥ Do have faith in what you're doing.