python - 就地改组多个 HDF5 数据集-6ren

python - 就地改组多个 HDF5 数据集

In lại 作者：太空狗更新时间：2023-10-30 00:14:04

25

4

我将多个 HDF5 数据集保存在同一个文件 my_file.h5 中。这些数据集具有不同的维度，但在第一个维度中的观察数量相同:

features.shape = (1000000, 24, 7, 1)
labels.shape = (1000000)
info.shape = (1000000, 4)

重要的是信息/标签数据正确连接到每组特征，因此我想用相同的种子打乱这些数据集。此外，我想在不将它们完全加载到内存中的情况下洗牌。这可能使用 numpy 和 h5py 吗？

câu trả lời hay nhất

在磁盘上打乱数组非常耗时，因为这意味着您已在 hdf5 文件中分配新数组，然后以不同的顺序复制所有行。如果你想避免使用 PyTables 或 h5py 一次将所有数据加载到内存中，你可以遍历行(或使用行 block )。

另一种方法可能是保持数据原样，并简单地将新行号映射到单独数组中的旧行号(这样您可以在 RAM 中保持完全加载，因为它只有 4MB 与您的数组大小).例如，打乱一个 numpy 数组 x,

x = np.random.rand(5)
idx_map = numpy.arange(x.shape[0])
numpy.random.shuffle(idx_map)

然后你可以使用advanced numpy indexing访问您的随机数据，

x[idx_map[2]] # equivalent to x_shuffled[2]
x[idx_map] # equivament to x_shuffled[:], etc.

这也适用于保存到 hdf5 的数组。与在磁盘上写入混洗数组相比，当然会有一些开销，但根据您的用例，这可能就足够了。

关于python - 就地改组多个 HDF5 数据集，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30977494/

25

4

0

Đề xuất bài viết: python - 我可以对多个属性使用相同的@property setter 吗？

Đề xuất bài viết: c# - 设计 View 未在 Visual Studio 2015 中打开

Đề xuất bài viết: c# - 将 DbSet 和查询结果分配给同一个变量

Đề xuất bài viết: python - enumerate(fileinput.input(file)) 和 enumerate(file) 的区别

c++ - 对一系列数字进行排序 - 就地
我正在尝试解决以下问题: We are given an array containing ‘n’ objects. Each object, when created, was assigned a
arrays - 将单个变量分配给数组(就地)
考虑以下代码: a=(1 2 3) a='seven' export a declare -p a 输出(来自declare)是: declare -ax a='([0]="seven" [1]="2
python - 列表转换 - 就地
我正在尝试将 ['1','2','3','4'] 转换为 [1,2,3,4]我想就地进行此转换。有可能做到吗？如果不是，最佳解决方案是什么。最佳答案我觉得用map比较好对于这类任务。这会创建迭代器
c - 从字符串中删除多余的空格(就地)
好的，所以我之前发布了关于尝试(没有任何预建函数)删除额外空间的信息 "this is a test"会回来的 "this is a test" Remove spaces from a strin
grails - Grails内联(就地)插件无法解决依赖关系
我有一个名为Media的插件，该插件应负责图像大小调整等工作。它具有以下依赖性: dependencies { compile group: 'org.ccil.cowan.tagsoup'
C - 在不使用内存(就地)的情况下读取然后写入文件？
我需要将一个大字符串向左“移动”X 个空格。它太大了，无法放入内存，所以我需要就地做。我需要使用最少量的系统调用来完成此操作。我知道我可以使用缓冲区并重用内存来最大限度地减少内存消耗，然后使用 fs
c++ - 就地 Cholesky 逆
我想知道是否可以在不需要临时数组的情况下通过 Cholesky 分解获得矩阵的逆。截至目前，我可以在不使用临时数组的情况下进行 cholesky 分解，但从那里我还没有想出一种方法来获得原始矩阵的逆矩
javascript - 就地 Javascript 编辑插件
是否有任何用于 Javascript 的就地编辑插件..像 firebug 之类的东西，它对即时 CSS 编辑和预览非常有用，但不允许就地 JS 编辑..那么，有没有我们可以立即更新和更新的工具或插件
java - 将链表的所有其他元素(就地)移动到java中链表的末尾
题目如下:给定一个 linked list，将备用 indices 移到 list 的后面例如: input: : [0] -> [1] -> [2] -> [3] -> [4]
c++ - 就地 std::copy_if
在我看来，std::copy_if 对于过滤容器非常有用: std::vector vec { 1, 2, 3, 4 }; auto itEnd = std::copy_if(vec.begin(),
c++ - 就地 C++ 设置交集
在 C++ 中相交两个集合的标准方法是执行以下操作: std::set set_1; // With some elements std::set set_2; // With some othe
python - Python中的“就地”字符串修改
在 Python 中，字符串是不可变的。逐个字符遍历字符串并对其进行修改的标准习语是什么？我能想到的唯一方法是一些与加入结果字符串相关的真正臭名昭著的黑客攻击。 -- 在 C 中: for(i
scala 移除(就地)ListBuffer 中满足条件的所有元素
我有一个 ListBuffer。我想删除满足特定条件的所有元素。我可以迭代它并删除每个元素。但是 Scala 对改变你正在迭代的列表有什么看法呢？它会起作用，还是会删除错误的元素/不返回所有元素？
r - rbind 的内存高效替代方案 - 就地 rbind？
我需要重新绑定(bind)两个大数据帧。现在我用的是 df 根据 nikola 的评论，这里是 ?rbindlist 的描述(v1.8.2 中的新增功能): Same as do.call("rbi
python - 如何使用 python 复制字符串中的字符(就地)？
đóng cửa. Câu hỏi này yêu cầu chi tiết hoặc rõ ràng. Câu trả lời không được chấp nhận vào thời điểm này. Bạn muốn cải thiện câu hỏi này? Thêm chi tiết và làm rõ câu hỏi bằng cách chỉnh sửa bài đăng này Đã đóng 3 năm trước. Cải thiện điều đó
c++ - 就地 Win32 ListView 编辑总是被取消
我在带有 LVS_EDITLABELS 的无模式 Win32 对话框中有一个小图标模式的 ListView 放。无论编辑是通过单击鼠标还是通过调用 ListView_LabelEdit() 以编程方式
java - 如何在 Java 中交换字符数组(就地)
所以基本上不能/允许创建一个新数组。除了实际更改和操作当前数组外，无法返回任何内容。您如何获取字符数组并简单地翻转/反转它们。 Starting array: ['P','e','r','f','e'
c++ - 对 vector 的一部分进行排序(就地)
我不明白为什么下面的代码没有对 vector 的前两个元素进行排序: int main() { std::vector v = {2,1,3,1,2}; std::sort(v.beg
Python - 取每个第 n 个元素(就地)
我有以下(简化的)代码: a = a[::3] b = b[::3] c = c[::3] d = d[::3] a,b,c,d,其实都是很复杂的表达式，所以我想这样写: for l in [a, b
c# - 就地 reshape c# 数组
可以对数组进行不依赖于数组秩的操作。迭代器也不总是合适的解决方案。给定数组 double[,] myarray = new double[10,5]; 实现以下工作流程是可取的: 将 Rank>1 的

trang đầu

đã học

6Ren AI

Trung tâm mua sắm

python - 就地改组多个 HDF5 数据集