V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
pdog18
V2EX  ›  问与答

抖音推荐的都是未曾看过的视频,是服务器会维护一个我已经看过的记录吗?

  •  
  •   pdog18 · 8 小时 31 分钟前 · 1991 次点击

    像抖音这种,推荐的都是我未看过的视频,通常的做法是服务器会维护一个我已经看过的记录吗? 如果我看过 1 万个视频,那不是一个账号要关联 10000 个记录。还是其实有更简单的做法呢?

    26 条回复    2024-12-21 18:39:29 +08:00
    klo424
        1
    klo424  
       8 小时 28 分钟前   ❤️ 3
    历史记录是肯定存在的,抖音推荐算法我就不懂了。
    cherbium
        2
    cherbium  
       8 小时 25 分钟前   ❤️ 1
    啊、抖音一直都保留你的查看记录啊
    kenneth104
        3
    kenneth104  
       8 小时 25 分钟前   ❤️ 1
    现在有向量数据库,用这个应该可以达到类似效果
    feikaras
        4
    feikaras  
       8 小时 21 分钟前 via iPhone   ❤️ 2
    你猜抖音有多少条视频,就算不维护你也刷不到一样的。维护甚至可以走客户端本地。
    mumbler
        5
    mumbler  
       8 小时 19 分钟前   ❤️ 1
    抖音给每个人维护了一个超过 3000 个参数的模型,根据记录不断训练这个模型,记录列表是模型的一部分
    falcon05
        6
    falcon05  
       8 小时 18 分钟前 via iPhone   ❤️ 1
    这不是理所当然的吗
    coefuqin
        7
    coefuqin  
       8 小时 17 分钟前   ❤️ 1
    在你本地客户端走 KNN ,记录也在你本地,以现在手机的算力,类似余 sqlite 的轻量关系型数据库,随便存。
    CKR
        8
    CKR  
       8 小时 5 分钟前 via iPhone   ❤️ 1
    有小概率刷到重复的视频,(也可能是之前缓存的视频)你用多个设备的时候就会发现有时候会给你推送重复的视频。
    例如一个视频你在手机上刷过了,过几个小时换 ipad 打开抖音有可能会再次刷到这个视频。
    Foxkeh
        9
    Foxkeh  
       7 小时 56 分钟前   ❤️ 5
    B 站经常刷到看过的[手动笑哭]
    summerwar
        10
    summerwar  
       7 小时 54 分钟前   ❤️ 1
    本地存下你的观看记录,你开始看一个视频时,后台加载下一个,与记录比对,看过了秒切第三个,你根本感觉不到
    june4
        11
    june4  
       7 小时 51 分钟前   ❤️ 1
    在知乎推荐页面会刷到以前看过的,甚至评论过的条目,可能知乎列表有个上限
    loli
        12
    loli  
       7 小时 31 分钟前   ❤️ 1
    youtube 推荐看过的比没看过的还多.无语了
    go522000
        13
    go522000  
       7 小时 27 分钟前   ❤️ 1
    可以用你手机本地资源去计算。
    远程在你刷视频的时候,会提前加载后面 5 个视频列表过来,当推荐过来的列表中有 1 个或 2 个与你本地最近 1000 条比较后相同,就直接跳过,不影响,这样远程服务器需要计算你的爱好就可以,不需要去计算你的浏览记录。
    tetora
        14
    tetora  
       7 小时 19 分钟前   ❤️ 1
    还是不够人性化,经常给我推看过的(换两个人再演一遍同样的剧情)
    Dk2014
        15
    Dk2014  
       6 小时 42 分钟前 via Android   ❤️ 1
    @Foxkeh 批里批里是真的菜,电脑看过手机还推
    同一类视频点过一次就疯狂推,点不喜欢还在推
    现在很多标题党封面党骗你点击,想看点标题封面和内容有关联的视频都不好找
    NoOneNoBody
        16
    NoOneNoBody  
       5 小时 44 分钟前   ❤️ 1
    抖音怎么做不知道,但我做的话 ——
    最简单的话就存存 10000 个整数 id 就够了,并不是什么难事
    实际上存的要更详细,不仅存你看了什么(what),还会存时间(when),设备和 ip(where),通过什么方式到达该视频,观看时长、是否评论、点赞……(how),who 就是帐号,why 就是推荐算法的缓存
    复杂度 how 权重最大,how 细分项目越多,画像越容易推算

    不然老是听说上亿数据量怎么来的?
    Kakarrot
        17
    Kakarrot  
       5 小时 34 分钟前   ❤️ 1
    我更想让抖音不要推送"已浏览过内容相似 80%+"的视频...

    如果能不推送"AI 自动配音/生成"的最好了
    lixiaobai913
        18
    lixiaobai913  
       4 小时 45 分钟前   ❤️ 1
    苹果和安卓双持就知道了,同一个账号不同的时间会刷到同一个视频
    loveumozart
        19
    loveumozart  
       4 小时 14 分钟前
    你得找 data 部门的 gofeed 算法工程师给你讲解,我猜这不是服务器工程师该解决的问题
    Yuan2One
        20
    Yuan2One  
       3 小时 3 分钟前
    bitmap 布隆过滤器,面试老问,就是不知道是不是真的这么算的
    opengps
        21
    opengps  
       2 小时 47 分钟前
    只是存一个 id ,评论都不限制你,你看的 id 再多也算不上多少存储成本
    gooddayup
        22
    gooddayup  
       2 小时 32 分钟前   ❤️ 2
    作为字节内非抖音员工我可以提一下

    是的,这个是推荐系统的去重环节,大致原理是以用户 uid 或 deviceid 为 key ,保存用户 N 天以内的观看记录,value 就是服务端或者客户端下发过的内容 id ,因此分别有服务端去重和客户端去重。大家偶尔会刷到重复的内容 id ,其实是不同人发的相似内容,在内容库里面对应不同的内容 id ,因此也有相似内容过滤,但偶尔会有 badcase 。

    顺便提一下将去重 N 天缩小,比如从 90 天变成 30 天这种,会提升用户的停留时长,感觉大家还挺喜欢看重复的内容的,不过过短就不好了。
    mwuxlcanrh
        23
    mwuxlcanrh  
       1 小时 47 分钟前
    去重是推荐系统的基本操作,你看过的都是排序靠前的,不去重就永远循环了。
    seers
        24
    seers  
       1 小时 3 分钟前
    应该是存本地,我手机和 pc 浏览器特意尝试过训练不同风格,结果就是同一个账号手机和 pc 推荐的完全不一样
    wwqm2
        25
    wwqm2  
       1 小时 0 分钟前
    我有刷到过同样的视频,同一个号同一个设备,还不只一个相同的视频,而是一连串都看过的,估计是遇到 bug 了
    leconio
        26
    leconio  
       51 分钟前 via iPhone
    如果你的喜好向量小于向量视频的增量就不会重复了,如果小于,就调整方向。单独去做去重是没有意义的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2557 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 11:31 · PVG 19:31 · LAX 03:31 · JFK 06:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.