python - 如何将向量拆分为列

python - 如何将向量拆分为列 - 使用 PySpark

In lại Tác giả: IT Lão Cao 更新时间：2023-10-28 22:11:30

39

4

上下文: tôi có một cái Khung dữ liệu 有 2 列:单词和向量。其中“vector”的列类型为VectorUDT。

一个例子:

word | vector
assert | [435,323,324,212...]

我想得到这个:

word | v1 | v2 | v3 | v4 | v5 | v6 ......
assert | 435 | 5435| 698| 356|....

câu hỏi:

如何使用 PySpark 将包含向量的列拆分为每个维度的多个列？

Cảm ơn trước

câu trả lời hay nhất

Spark >= 3.0.0

从 Spark 3.0.0 开始，这可以在不使用 UDF 的情况下完成。

from pyspark.ml.functions import vector_to_array

(df
    .withColumn("xs", vector_to_array("vector")))
    .select(["word"] + [col("xs")[i] for i in range(3)]))

## +-------+-----+-----+-----+
## | word|xs[0]|xs[1]|xs[2]|
## +-------+-----+-----+-----+
## | assert| 1.0| 2.0| 3.0|
## |require| 0.0| 2.0| 0.0|
## +-------+-----+-----+-----+

Spark <3.0.0

一种可能的方法是与 RDD 相互转换:

from pyspark.ml.linalg import Vectors

df = sc.parallelize([
    ("assert", Vectors.dense([1, 2, 3])),
    ("require", Vectors.sparse(3, {1: 2}))
]).toDF(["word", "vector"])

def extract(row):
    return (row.word, ) + tuple(row.vector.toArray().tolist())

df.rdd.map(extract).toDF(["word"]) # Vector values will be named _2, _3, ...

## +-------+---+---+---+
## | word| _2| _3| _4|
## +-------+---+---+---+
## | assert|1.0|2.0|3.0|
## |require|0.0|2.0|0.0|
## +-------+---+---+---+

另一种解决方案是创建 UDF:

from pyspark.sql.functions import udf, col
from pyspark.sql.types import ArrayType, DoubleType

def to_array(col):
    def to_array_(v):
        return v.toArray().tolist()
    # Important: asNondeterministic requires Spark 2.3 or later
    # It can be safely removed i.e.
    # return udf(to_array_, ArrayType(DoubleType()))(col)
    # but at the cost of decreased performance
    return udf(to_array_, ArrayType(DoubleType())).asNondeterministic()(col)

(df
    .withColumn("xs", to_array(col("vector")))
    .select(["word"] + [col("xs")[i] for i in range(3)]))

## +-------+-----+-----+-----+
## | word|xs[0]|xs[1]|xs[2]|
## +-------+-----+-----+-----+
## | assert| 1.0| 2.0| 3.0|
## |require| 0.0| 2.0| 0.0|
## +-------+-----+-----+-----+

对于 Scala 等价物，请参阅 Spark Scala: How to convert Dataframe[vector] to DataFrame[f1:Double, ..., fn: Double)] .

关于python - 如何将向量拆分为列 - 使用 PySpark，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38384347/

39

4

0

Đề xuất bài viết: python - 将 .csv 文件从 URL 读取到 Python 3.x - _csv.Error : iterator should return strings, not bytes(您是否以文本模式打开文件？)

Đề xuất bài viết: python - SimpleNamespace 和空类定义有什么区别？

Đề xuất bài viết: python - 在 django 文件字段中保存 base64 图像

Đề xuất bài viết: python - Keras Conv2D 和输入 channel

java - Arraylist 分为 -
我有一个数组列表: ArrayList allText = new ArrayList(); 其内容是这样的: [Alabama - Montgomery, Alaska - Juneau, Ariz
php - 开始和结束时间，分为 1 小时段
我有一个 timestamp 格式的开始和结束时间。我想将它们分成多个时间段，例如 1 小时。 $t1 = strtotime('2010-05-06 12:00:00'); $t2 = strtot
css - span10 分为 3 列
我需要将 span10 分成 3 列，但我无法将它们排列起来。我应该在 span10 中添加一个 span12 还是使用 offset 还是？？
Pandas - 分为 24 小时区 block ，但不是午夜到午夜
我有一个时间序列。我想从早上 8 点到第二天早上 7:59 分成 24 小时的区 block 。我知道如何按日期分组，但我尝试过使用 TimeGroupers 和 DateOffsets 处理这个 8
java - Android Java 分为 4 个整数
我收到“街道号码邮政编码城市”形式的地址(作为字符串)。我想要做的是将街道和号码与邮政编码和城市分开。通常你可以按空格分割。但有些街道名称中也有空格，例如:“Emile Van Ermengemlaa
java - 将 JList 分为 2 组的优化方法
我有一个用户列表。其中一些用户处于第一状态，而其他用户处于第二状态。所以我想要的是将这个列表显示为首先，它按排序顺序显示存在 = 1 的用户，然后按排序顺序显示存在 = 2 的用户。这里的排序是根据用
javascript - 将 div 分为 3 列
我感觉我搜索了整个网络，但找不到一种方法将不同高度的 div 很好地划分为 3 列，就像 http://www.ing.nl 上那样 headertekst headerteksttesth
css - td 内的 Bootstrap 按钮下拉菜单，分为 2 行
Bootstrap 3 按钮下拉菜单出现问题。你可以在这里看到我的两个例子: http://www.bootply.com/W1dLusilMk http://www.bootply.com/GGBv
javascript - 返回的 php JSON 分为 2 个 Javascript 对象
我在 php 中执行以下操作 foreach($QuestionAsekd as $k => $v){ $grp_name = $v['NAME']; $groupValues[$gr
python - Pandas DataFrame [cell=(label,value)]，分为 2 个独立的数据框
我找到了一种用pandas解析html的绝妙方法。我的数据格式有点奇怪(见下文)。我想将这些数据拆分为 2 个单独的数据帧。注意每个单元格如何由，分隔...是否有任何真正有效的方法来分割所有这些单元
html - CSS
分为 2 列。没有
HTML 看起来像这样，但我不允许对其进行更改。我只能编写 CSS 将其变成 2 列。 Povezave www.behance.net www.kiberpipa.org www.o
python - Pandas 数据帧 : convert 2 columns (value, 值)分为 2 列(值，类型)
假设我有以下数据框“A” utilization utilization_billable service 1
html - 需要 2 个 100% 宽度的文本框，分为 2 个(50% x 50%)以及一个提交按钮
我需要将 2 个文本框拉伸(stretch)到 100% 的浏览器宽度，以及一个提交按钮。所有三个都应该在一行中，我试图拉伸(stretch)它但它没有发生......有什么想法吗？代码: .sea

trang đầu

đã học

6Ren AI

Trung tâm mua sắm

python - 如何将向量拆分为列 - 使用 PySpark