如何在Pyspark中添加带有MIN和MAX函数的新列,并按数据分组?

How to add new column with min and max function in Pyspark and group by the data?(如何在Pyspark中添加带有MIN和MAX函数的新列,并按数据分组?)
本文介绍了如何在Pyspark中添加带有MIN和MAX函数的新列,并按数据分组?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

PySpark Dataframe:adbel DF

向数据框添加新列:

from pyspark.sql.window import Window
from pyspark.sql import functions as f
adobeDF_new = adobeDF.withColumn('start_date', f.col('Date')).withColumn('end_date', f.col('Date'))

结果:

我正在尝试弄清楚如何将最小(日期)值保存在Start_Date中,将最大(日期)值保存在End_Date中,并按post_evar10和Type对最终数据帧进行分组。

我尝试过的内容:下面的代码可以工作,但想看看是否有更好的方法来这样做,并将数据限制在从START_DATE起60天

from pyspark.sql.window import Window
from pyspark.sql import functions as f
adobe_window = Window.partitionBy('post_evar10','Type').orderBy('Date')
adobeDF_new = adobeDF.withColumn('start_date', min(f.col('Date')).over(adobe_window)).withColumn('end_date', max(f.col('Date')).over(adobe_window))

推荐答案

以下内容如何?

adobeDF.groupBy("post_evar10").agg(
    f.min("start_date").alias("min_start"),
    f.max("end_date").alias("max_end")
)

这篇关于如何在Pyspark中添加带有MIN和MAX函数的新列,并按数据分组?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!

本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除!

相关文档推荐

Leetcode 234: Palindrome LinkedList(Leetcode 234:回文链接列表)
How do I read an Excel file directly from Dropbox#39;s API using pandas.read_excel()?(如何使用PANDAS.READ_EXCEL()直接从Dropbox的API读取Excel文件?)
subprocess.Popen tries to write to nonexistent pipe(子进程。打开尝试写入不存在的管道)
I want to realize Popen-code from Windows to Linux:(我想实现从Windows到Linux的POpen-code:)
Reading stdout from a subprocess in real time(实时读取子进程中的标准输出)
How to call type safely on a random file in Python?(如何在Python中安全地调用随机文件上的类型?)