read (DataSourceStreamReader)

为给定分区生成数据,并返回元组或行的迭代器。

每个分区调用一次此方法以读取数据。 流读取器需要实现此方法。 可以初始化从此方法中从数据源读取数据所需的任何不可序列化资源。

在 Databricks Runtime 15.2 中添加

Syntax

read(partition: InputPartition)

参数

参数 类型 说明
partition InputPartition 要读取的分区。 它必须是返回的 partitions()分区值之一。

退货

Iterator[Tuple]Iterator[RecordBatch]

元组或行的迭代器。 每个元组或行将转换为最终数据帧中的一行。 如果数据源支持 PyArrow 对象,它还可以返回 PyArrow RecordBatch 对象的迭代器。

备注

此方法是静态的和无状态的。 不要访问可变类成员或在不同的调用 read()之间保留内存中状态。