crosstab (DataFrameStatFunctions)

计算给定列(也称为应变表)的成对频率表。 每行的第一列包含非重复值 col1,列名是非重复值 col2。 第一列的名称为 $col1_$col2。 没有匹配项的对的计数为零。 DataFrame.crosstabDataFrameStatFunctions.crosstab 彼此的别名。

Syntax

crosstab(col1, col2)

参数

参数 类型 说明
col1 str 第一列的名称。 不同的项构成每行的第一列。
col2 str 第二列的名称。 不同的项构成生成的 DataFrame列名。

退货

DataFrame

示例

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.stat.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+