1. 首页
  2. 大数据
  3. spark
  4. Spark下使用PySpark生成TFRecord样本文件并存储到HDFS

Spark下使用PySpark生成TFRecord样本文件并存储到HDFS

上传者: 2023-03-08 17:05:18上传 JAR文件 1.21MB 热度 9次
PySpark集成了TensorFlowTFRecord格式数据的读取和写入支持。通过安装tfrecord2.12.3.0.jar包,我们可以在Spark集群中使用PySpark来生成TFRecord样本文件,并将其直接存储到HDFS上。以下是生成TFRecord样本文件的示例代码:

from pyspark.ml.feature import VectorAssembler

from pyspark.ml.linalg import Vectors

生成测试数据

data = [(Vectors.dense([1, 2, 3]), 1.0),

(Vectors.dense([4, 5, 6]), 2.0)]

df = spark.createDataFrame(data, ["features", "label"])

将DataFrame数据转换为TFRecord格式

output_dir = "hdfs:///tfrecord/output"

df.write.format("tfrecords").option("recordType", "Example").save(output_dir)

下载地址
用户评论