freqItems （DataFrame）

查找列的常见项，可能带有误报。使用“https://doi.org/10.1145/762471.762473Karp、Schenker 和 Papadimitriou 提出的频繁元素计数算法”。 DataFrame.freqItems 是 DataFrameStatFunctions.freqItems 别名。

Syntax

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

参数

参数	类型	说明
`cols`	list 或 tuple	要计算字符串列表或元组的频繁项的列的名称。
`support`	float，可选	要考虑项“频繁”的频率。默认值为 1%。支持必须大于 1e-4。

退货

DataFrame：包含频繁项的数据帧。

备注

此函数用于探索数据分析，因为我们不能保证生成的 DataFrame 架构的向后兼容性。

示例

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

反馈

此页面是否有帮助？

Last updated on 2026-04-19

freqItems （DataFrame）

Syntax

参数

退货

备注

示例

反馈

其他资源