pyspark RDD 入门

2023-02-24 15:05:59

#import  pyhdfs
#顶级项目目录
#from spark.demo import  demo2

#! /usr/bin/python
# -*- coding:utf-8 -*-

import  sys
from  pyspark.sql import  SparkSession
import operator as op


class PropertiesUtil:
    def __init__(self):
        print("a")


    def formatPrint(x):
        strRes =str()
        '''
        if isinstance(x,tuple):
            print ("true")
        else :
            print("false")
        '''
        if "" != x :
           strRes = str(x).split(",")
        else:
            ""
        return   strRes



if __name__ =="__main__":
    #自动调用init方法
    d = PropertiesUtil()
    #print("b")

    #hdfsClinet = pyhdfs.HdfsClient


    #flag = pyhdfs.HdfsClient.exists()

    #conf = SparkConf().setMaster("local[*]").setAppName("Test")
    #sc = SparkContext(conf)
    spark = SparkSession.builder\
            .master("local") \
            .appName("Test") \
            .enableHiveSupport() \
            .config("spark.executor.memory","1g") \
            .getOrCreate()

    sc = spark.sparkContext


    rdd = sc.textFile("hdfs://hadoop:9000/dev/nginx/logs/nongfu.mw/status/mergeonlinefile/2018-07-17")

    #rdd.foreach(lambda x: print(x))
    a = ""
    b = ""

    res = str()
    #rdd.foreach(lambda x: d.formatPrint())
    #rdd.top(1)
    iterator = rdd.toLocalIterator()
    
    
    #获取保存状态的小文件数据
    for i in iterator:
        a = str(i).split(",")[0]
        b = str(i).split(",")[1]

    print('a: ',a," ,b: ",b)
    
    #复杂处理
    rdd.foreach(d.formatPrint)

pyspark RDD 入门

继续阅读

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

ubuntu14.04下安装hbse1.0.1.1

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

User Defined Hadoop DataType

Ambari介绍和架构原理

Cloud Studio初体验

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入