发布了好几天 V2 上竟然没有讨论贴,来发一把,这是个好模型。
重点:
- 236B MoE ,激活参数约 33B 。
- 在各编码基准测试中与 GPT 4o 水平相当或更高(包括非常新的、难以污染的基准测试)。
- 官网 API 价格:1 元 / 百万输入 Tokens ; 2 元 / 百万输出 Tokens ,非常廉价。
- 除了编码,其他逻辑能力也很强。
- 开放权重,允许商业用途
- 体验: https://chat.deepseek.com/ (左侧代码助手)
- GitHub: https://github.com/deepseek-ai/DeepSeek-Coder-V2
- 技术报告: https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf
- 权重: https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Instruct
除了 236B 的完全体还有一个 Lite 版,16B 参数,大约激活 2B ,支持代码补全等,挺适合个人电脑跑: https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct