Spark(Streaming)写入数据到文件-关键为根据数据内容输出到不同自定义名称文件(saveAsHadoopFile以及自定义MultipleOutputFormat) 发表于 2018-07-02 | 更新于 2018-12-04 | 分类于 BigData | 阅读次数 本文关于在使用Spark或Spark Streaming输出数据到文件的几种方式。关键的内容是Spark Streaming中实现实时根据数据内容,将数据写入不同的文件存储,支持自定义输出的文件名称,主要使用saveAsHadoopFile以及自定义MultipleOutputFormat实现。本文的场景是数据写入hdfs。 阅读全文 »
Kerberos具体实践4-Kerberos主从KDC部署 发表于 2018-06-29 | 更新于 2018-06-29 | 分类于 BigData | 阅读次数 本文属于Kerberos具体实践整理的第四部分,主要涉及kerberos主从KDC部署。 阅读全文 »
Kerberos具体实践3-Kerberos与ZK的整合操作 发表于 2018-06-29 | 更新于 2018-06-29 | 分类于 BigData | 阅读次数 本文属于Kerberos具体实践整理的第三部分,主要涉及kerberos与ZK的整合操作。 阅读全文 »
Kerberos具体实践2-Kerberos与HDFS的整合操作 发表于 2018-06-28 | 更新于 2018-06-28 | 分类于 BigData | 阅读次数 本文属于Kerberos具体实践整理的第二部分,主要涉及kerberos与HDFS的整合操作。 阅读全文 »
Docker+Mesos+Marathon监控方法使用总结 发表于 2018-06-15 | 更新于 2018-06-15 | 分类于 Cloud | 阅读次数 本文主要关于Docker、Mesos、Marathon的监控方法的总结,主要使用java方法和相关restful方式获取监控数据。 阅读全文 »
HDFS权限以及目录限额相关 发表于 2018-06-04 | 更新于 2018-06-04 | 分类于 BigData | 阅读次数 本文主要关于HDFS的用户权限设置以及目录的限额控制的总结。 阅读全文 »
spark日志相关内容 发表于 2018-05-21 | 更新于 2018-05-21 | 分类于 BigData | 阅读次数 本文主要关于spark日志相关的部分内容,包括spark日志位置以及其中一种日志配置方法,后续可再对本文进行其他配置方法的补充。 阅读全文 »
Kerberos具体实践1-Kerberos环境准备及安装 发表于 2018-05-05 | 更新于 2018-05-05 | 分类于 BigData | 阅读次数 本文属于Kerberos具体实践整理的第一部分,主要涉及到Kerberos集群的安装以及基本命令的使用。 阅读全文 »
SparkStreaming程序中checkpoint与广播变量兼容处理 发表于 2018-04-04 | 更新于 2018-04-04 | 分类于 BigData | 阅读次数 本文主要关于Spark Streaming程序中同时使用checkpoint与广播变量的方法,此文中代码在上文“SparkStreaming输出数据到Kafka--Kafka连接池的使用”的基础上进行优化,使其能够同时使用checkpoint记录读取上游kafka的offset以及kafkaPool广播变量。 阅读全文 »