• 请不要在回答技术问题时复制粘贴 AI 生成的内容
macvis
V2EX  ›  程序员

数据开发纯小白,想问个问题

  •  
  •   macvis · Jul 22, 2023 · 1817 views
    This topic created in 1030 days ago, the information mentioned may be changed or developed.

    hdfs 可以存储文件对象,就是 jpg doc xls avi 这种纯文件,

    hadoop 具有 hdfs 文件系统管理功能,

    hive 则是 hadoop 的 hql 管理版增强包,

    那么推论则是,hive 可以通过 hql 来管理 hdfs 内的文件对象

    但是呢,我看 hive 的建表文件一定要有个分隔符,而且不管是 textfile 还是 sequencefile 都要有分隔符,要么逗号要么\001 ,那么 hive 在写入数据是一定会去解析文件吗?

    换言之,如果我想用 hive 来实现文件对象的管理,就是用 hql 来查询文件对象,即 doc xls jpg 这种纯文件,hive 能实现吗

    9 replies    2023-07-23 12:49:49 +08:00
    F281M6Dh8DXpD1g2
        1
    F281M6Dh8DXpD1g2  
       Jul 22, 2023
    你要读 excel 自己写个 serde 就行了
    hive 管理的是数据不是文件,jpg 你也可以当成数据,不过没啥意义
    macvis
        2
    macvis  
    OP
       Jul 22, 2023
    @liprais 突然明白了,我不必拘泥于文件格式,写入读取时关注序列化与反序列化,要存取什么使用对应的 serde 就好了,对吧
    Alias4ck
        3
    Alias4ck  
       Jul 22, 2023
    你这种非结构化的数据 ,hive 是无法处理的,
    对于传统的 RDBMS 处理这种数据的方式也是基本存储对应的文件路径,也不会直接解析二进制数据
    你真的想在 hadoop 上存储这个的话 ,你可能需要的是 hbase 或者 es
    不过主流方案也是存储它在 hdfs 上面的路径吧
    rrfeng
        4
    rrfeng  
       Jul 22, 2023 via Android
    hdfs 是 ext4
    hive 是 mysql

    这样对比是不是容易理解了
    macvis
        5
    macvis  
    OP
       Jul 22, 2023
    @rrfeng 这个我就秒懂了
    macvis
        6
    macvis  
    OP
       Jul 22, 2023
    @Alias4ck 谢谢哈, 我去看看 hbase
    rrfeng
        7
    rrfeng  
       Jul 22, 2023 via Android
    HBase 是 MongoDB 。

    不如说一下你的原始需求
    macvis
        8
    macvis  
    OP
       Jul 22, 2023
    @rrfeng 公司要搞一个数据中台,接入其他部门的数据,结构化的非结构化的都要存。
    xue777hua
        9
    xue777hua  
       Jul 23, 2023
    可以实现 增加一个 udf 就行 用来解析文件
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1278 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 17:07 · PVG 01:07 · LAX 10:07 · JFK 13:07
    ♥ Do have faith in what you're doing.