dtgxx
V2EX  ›  问与答

spark 怎么做图片的相似度计算呢?

  •  
  •   dtgxx · Jun 17, 2022 · 1609 views
    This topic created in 1440 days ago, the information mentioned may be changed or developed.
    不是人脸的图,是像素比较低的头像那种。一般可能图一模一样,颜色不同,或者颜色相同,图有略微变化。这都可以分为一类。
    6 replies    2022-06-17 17:50:56 +08:00
    HiShan
        1
    HiShan  
       Jun 17, 2022   ❤️ 1
    把图片二值化,取 Hash 然后计算 hash 相似度,记得 github 有一个图片搜索引擎
    knightdf
        2
    knightdf  
       Jun 17, 2022   ❤️ 1
    image hash?
    dtgxx
        3
    dtgxx  
    OP
       Jun 17, 2022
    @HiShan #1 @knightdf #2 好的我去试试, 图片 hash 之后,文本的相似度和图像的相似度是有关系的吗?
    tfdetang
        4
    tfdetang  
       Jun 17, 2022   ❤️ 1
    这个场景下 hash 似乎就够了; 精度比较高的做法还是先用一些预训练过的图像模型拿最后几层的输出或者 VAE 编码器先对所有图片进行向量化编码。 然后用 spark 计算向量间的余弦相似度
    HiShan
        5
    HiShan  
       Jun 17, 2022
    @dtgxx 文本和图片的 hash 算不一样吧
    dtgxx
        6
    dtgxx  
    OP
       Jun 17, 2022
    @HiShan #5 是的 可以算图片 hash 的相似度,我试了下,误报还是比较高
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5337 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 41ms · UTC 08:00 · PVG 16:00 · LAX 01:00 · JFK 04:00
    ♥ Do have faith in what you're doing.