返回一个新的 DataFrame,其中包含此数据帧和另一个 DataFrame 中的行的并集。
Syntax
union(other: "DataFrame")
参数
| 参数 | 类型 | 说明 |
|---|---|---|
other |
DataFrame | 需要联合的另一个数据帧。 |
退货
DataFrame:包含组合行和相应列的新数据帧。
备注
此方法执行两 DataFrame 个对象中行的 SQL 样式集联合,不自动删除元素。
使用该方法 distinct() 执行重复数据删除行。
该方法按照 SQL 中的标准行为按位置(而不是名称)解析列。
示例
df1 = spark.createDataFrame([(1, 'A'), (2, 'B')], ['id', 'value'])
df2 = spark.createDataFrame([(3, 'C'), (4, 'D')], ['id', 'value'])
df3 = df1.union(df2)
df3.show()
# +---+-----+
# | id|value|
# +---+-----+
# | 1| A|
# | 2| B|
# | 3| C|
# | 4| D|
# +---+-----+
df1 = spark.createDataFrame([(1, 'A'), (2, 'B'), (3, 'C')], ['id', 'value'])
df2 = spark.createDataFrame([(3, 'C'), (4, 'D')], ['id', 'value'])
df3 = df1.union(df2).distinct().sort("id")
df3.show()
# +---+-----+
# | id|value|
# +---+-----+
# | 1| A|
# | 2| B|
# | 3| C|
# | 4| D|
# +---+-----+