开源了 VectorHub，用文件和网页进行 GPT Embedding，并且能够分享给他人使用，发挥你创意的时候到了！

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 1037 days ago, the information mentioned may be changed or developed.

vectorhub

目前已实现的功能：

通过上传文件 GPT embedding
通过输入网页 URL 进行 GPT embedding
创建 vector 数据，后续可以多次使用
直接使用他人创建好的 vector 数据
100% 代码开源

我在今年四月的时候，开源了 ChatFile 项目，收获了 2.4K 的 stars, 该项目的目的是上传文件进行 GPT 的 Embedding ，能够上传 PDF 、Epub 、Markdown 、Text 、Zip 等等一些系列格式的文件做到 ChatPDF 之类的效果。

新的项目设计的初衷是，ChatFiles 在之前开源后，收到了很多用户的上传文件使用 Embedding ，但是这些 Embedding 并不能被所有人重复使用，这样就形成了大量的浪费，大家都在给 OpenAI 交重复的钱💰。

例如我在 https://chat.vectorhub.org 中 Embedding 了 https://github.com/k88hudson/git-flight-rules/blob/master/README.md 的材料。

并提供了一些快速的开始问题，那么其它用户就不需要再次花钱 embedding 就可以使用该数据。

大家也可以想一想还有什么有趣的可以进行 embedding 的。可以用你的 API Key embedding 然后所有人一起使用。也可以在这个帖子讨论，后续项目的进展在我的推特上更新。

目前项目还在初期，大家可以多多提提 bug 。新的项目地址： https://github.com/guangzhengli/vectorhub

vectorhub

22 replies • 2023-07-13 19:37:39 +08:00

ql562482472

Jul 13, 2023

请问一下是不是可以理解为在模型的上下文上添加了一些资料？在我们的对话中可以有更详尽的参考？还是添加了一种新的思维方式啊，或者是一些 prompt ？主要是不明白这是个啥所以想请教一下

SWALLOWW

Jul 13, 2023

我也没懂，能不能举例一个使用场景

zzh161

Jul 13, 2023

翻了半天，这个怎么设置代理？一定要代理本机所有流量？

Seanfuck

Jul 13, 2023

问题是每个人用的文件或网页不同，这个不同于模型能通用

hyperzlib

Jul 13, 2023

顺便提一嘴，如果要本地搭建、低成本向量搜索，也可以试试 BERT 的 Embedding 。

ligz

Jul 13, 2023

@SWALLOWW
@ql562482472

@SWALLOWW
@ql562482472

举个例子，我基于 https://github.com/k88hudson/git-flight-rules/blob/master/README.md 这个 Git 操作手册进行 Embedding 创建了 vector 数据后，就可以问 ChatGPT 基于这个文档材料相关的问题。例如问 I want to undo rebase/merge ，它就会回复 To undo a rebase or merge, you can reset your branch to the original HEAD pointer using the ORIG_HEAD variable. Use the command "git reset --hard ORIG_HEAD" to recover your branch to its state before the rebase/merge. 这段话是基于材料的上下文，而不是 GPT 的自由发挥。

再比如我上传朱自清的《背影》这篇文章，我问橘子是谁买的？可以得到回复是父亲买的。

所以这个功能是基于上传材料的上下文得到 GPT 的回答，而不是纯粹的 GPT 问答。

![Snipaste_2023-07-12_09-30-40]( https://cdn.jsdelivr.net/gh/guangzhengli/PicURL@master/uPic/Snipaste_2023-07-12_09-30-40.png)

ligz

Jul 13, 2023

@zzh161 什么代理？

zzh161

Jul 13, 2023

@ligz 访问 open ai 用的代理，国内的服务器大多不能直连吧

pkoukk

Jul 13, 2023

@SWALLOWW #2 智能客服、QA 机器人。

pkoukk

Jul 13, 2023

langchain 好用么？

ligz

Jul 13, 2023

@Seanfuck 如果有趣或者细分领域还是有帮助的，例如上传法律条文、上传一些面试题之类的

ligz

Jul 13, 2023

@pkoukk #10 LangChain 还是可以的，这个项目所有和 OpenAI / Azure Openai 集成的代码都是用的 LangChain ，想要学习 LangChain 写 AI 应用的小伙伴可以拉代码看看。

如果不想用 Python 写 AI 应用，我觉得 LangChainJs 是唯一选择。

mMartin

Jul 13, 2023

这不就知识库么

hahastudio

Jul 13, 2023

关于 embedding 能否共享，我觉得大不了再存一个 model 名字就好了，顶多就是同一段文字有好几个 vector 结果，相当于是大型缓存
但有几个问题：
1. 可能同一篇文章不同的应用切出来的片不一样，有潜在浪费
2. 需要假定传上来的都是可以放在公有领域的文字，不然别人付费了 paywall 做了 embedding 然后我没花钱也能拿到结果？