通常,在接收到source的数据后,应该立刻生成watermark;但是,也可以在接收source后,应用简单的map或者filter操作,然后再生成watermark。查看全文>>
关系型数据和Hive都是支持SQL引擎的数据库;Redis和Hbase都是NoSQL 类型的Key/vale数据库,支持简单的行列操作,不支持SQL引擎。查看全文>>
嵌入模式下,元数据保存在Derby数据库中,且只允许一个会话连接,若尝试多个会话连接时会报错。下面讲解Hive安装之嵌入模式的配置步骤查看全文>>
参数默认false。当设为true,parquet会聚合所有parquet文件的schema,否则是直接读取parquet summary文件,或者在没有parquet summary文件时候随机选择一个文件的schema作为最终的schema。查看全文>>
Kafka是一个高吞吐量的分布式发布订阅消息系统,它在实时计算系统中有着非常强大的功能。把topic中一个parition大文件分成多个小文件段,通过多个小文件段,就容易定期清除或删除已经消费完文件,减少磁盘占用。查看全文>>
Hadoop实现join有三种方法,第一种是reduce side join,它是一种最简单的join方式,其主要思想如下:查看全文>>