查找列的常见项,可能带有误报。 使用 Karp、Schenker 和 Papadimitriou 描述的频繁元素计数算法。
DataFrame.freqItems 是 DataFrameStatFunctions.freqItems 彼此的别名。
Syntax
freqItems(cols, support=None)
参数
| 参数 | 类型 | 说明 |
|---|---|---|
cols |
list 或 tuple | 要计算其频繁项的列的名称。 |
support |
float,可选 | 要考虑某个项的频率。 默认值为 1% (0.01)。 必须大于 1e-4。 |
退货
DataFrame
备注
此方法用于探索数据分析。 不能保证生成的 DataFrame架构的向后兼容性。
示例
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+