python - numpy数组的快速条件重叠窗口(框架)-6ren

Cửa sổ chồng chéo có điều kiện nhanh (khung) của mảng numpy

In lại 作者：行者123 更新时间：2023-12-04 12:27:31

Tôi có một danh sách lớn các mảng numpy (1D) là chuỗi thời gian của các sự kiện khác nhau. Mỗi điểm có một nhãn và tôi muốn phân chia mảng numpy theo nhãn của nó. Nhãn của tôi là 0, 1 và 2. Mỗi cửa sổ có kích thước cố định M.
每个窗口的标签将是窗口中可用的最大标签。因此，如果一个窗口由 0 和 1 标记的数据点组成，则整个窗口的标签将为 1。
但问题是，窗口不是标签不可知的。由于类别不平衡，我只想在标签 1 和 2 的情况下进行重叠加窗。
到目前为止，我已经编写了这段代码:

# conditional framing
data = []
start_cursor = 0
while start_cursor < arr.size:
  end_cursor = start_cursor + window_size
  data.append(
    {
      "frame": arr[start_cursor:end_cursor],
      "label": y[start_cursor:end_cursor].max(),
    }
  )
  start_cursor = end_cursor
  if np.any(y[start_cursor, end_cursor] != 0):
    start_cursor = start_cursor - overlap_size

但这显然太冗长而且效率低下，尤其是因为我将在我庞大的单独数组列表中调用这个 while 循环。
编辑:更多地解释问题。想象一下，您要对一个固定长度 M 的信号进行加窗。如果窗口中只存在 0 个标签点，则相邻窗口之间不会有重叠。但如果存在标签 1 和 2，则两个信号之间会有重叠，百分比为 p%。

1 Câu trả lời

我认为这可以满足您的要求。检查的可视化不是很好，但它可以帮助您了解窗口的工作原理。希望我理解你的问题是正确的，这就是你想要做的。只要时间序列中有 1 或 2(而不是 0)，窗口就会向前移动整个窗口长度的一部分(这里是 50%)。

要检查如何执行此操作，请从示例时间序列开始:

import matplotlib.pylab as plt
nhập numpy dưới dạng np

N = 5000 # time series length

# create some sort of data set to work with
x = np.zeros(N)
# add a few 1s and 2s to the list (though really they are the same for the windowing)
y = np.random.random(N)
x[y < 0.01] = 1
x[y < 0.005] = 2

# assign a window length
M = 50 # window length
overlap = 0.5 # assume 50% overlap
M_overlap = int(M * (1-overlap))

我的方法是对您的时间序列感兴趣的窗口求和。如果和 ==0 ，则窗口之间没有重叠，如果是 >0 则有重叠。那么，问题就变成了我们应该如何有效地计算这些总和？我比较了两种方法。第一个是简单地遍历时间序列，第二个是使用 convolution (它要快得多)。对于第一个，我还探索了求和后评估窗口大小的不同方法。
求和(慢版)

def window_sum1():
    # start of windows in list windows
    windows = [0,]
    while windows[-1] + M < N:
        check = sum(x[windows[-1]:windows[-1]+M]) == 0
        windows.append(windows[-1] + M_overlap + (M - M_overlap) * check)
        if windows[-1] + M > N:
            windows.pop()
            phá vỡ
    # plotting stuff for checking
    return(windows)
Niter = 10**4
print(timeit.timeit(window_sum1, number = Niter))
# 29.201083058

所以这种方法在大约 30 秒内经历了 10,000 个长度为 5000 的时间序列。但是 windows.append(windows[-1] + M_overlap + (M - M_overlap) * check) 行可以在 if 语句中简化。
求和(快版本，比慢版本快 33%)

def window_sum2():
    # start of windows in list windows
    windows = [0,]
    while windows[-1] + M < N:
        check = sum(x[windows[-1]:windows[-1]+M]) == 0
        if check:
            windows.append(windows[-1] + M)
        khác:
            windows.append(windows[-1] + M_overlap)
        if windows[-1] + M > N:
            windows.pop()
            phá vỡ
    # plotting stuff for checking
    return(windows)
print(timeit.timeit(window_sum2, number = Niter))
# 20.456240447000003

我们看到 if 语句的时间减少了 1/3。
卷积(比快速求和快 85%)
通过使用 numpy.convolve 将时间序列与感兴趣的窗口进行卷积，我们可以使用信号处理来获得更快的速度。 (免责声明:我从 this question 的公认答案中得到了这个想法。)当然，从上面采用更快的窗口大小评估也是有意义的。

def window_conv():
    a = np.convolve(x,np.ones(M,dtype=int),'valid')
    windows = [0,]
    while windows[-1] + M < N:
        if a[windows[-1]]:
            windows.append(windows[-1] + M_overlap)
        khác:
            windows.append(windows[-1] + M)
        if windows[-1] + M > N:
            windows.pop()
            phá vỡ
    return(windows)
print(timeit.timeit(window_conv, number = Niter))
#3.3695770570000008

滑动窗口
我要补充的最后一件事是，如 this question 的评论之一所示，从 numpy 1.20 开始，有一个名为 sliding_window_view 的函数。我仍然在运行 numpy 1.19 并且无法测试它是否比卷积更快。

关于python - numpy数组的快速条件重叠窗口(框架)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/69535871/

Bài viết được đề xuất: java - Eclipse 自动完成不工作...仅适用于 AWT？

Bài viết được đề xuất: java - 如何将资源添加到同名文件夹中的两个模块化 jar 中？

Bài viết được đề xuất: javascript - 从样式化组件宏重新导出样式化不起作用

Bài viết được đề xuất: 就地for循环中的Python字符串连接？

Kiểm tra xem mảng numpy có phải là mảng numpy masked không
Khi xuất ra một tập lệnh, tôi có mảng numpy masked và mảng numpy chuẩn. Làm thế nào tôi có thể dễ dàng kiểm tra xem một mảng có bị masked (có dữ liệu, thuộc tính mask) khi tôi chạy tập lệnh? Câu trả lời tốt nhất là bạn có thể sử dụng isin
Kiểm tra xem có bao nhiêu phần tử trong một mảng numpy bằng với các mảng numpy khác trong một mảng numpy khác có kích thước khác
Câu hỏi của tôi giả sử tôi có = np.array([ np.array([1,2]), np.array([3,4]), np.array([5,6]), np.array([7,8]), ...7,8]), np.array([7,8]), np.array
Numpy có tích hợp sẵn chức năng lũy thừa mô-đun ma trận từng phần tử không?
Numpy có tích hợp sẵn chức năng lũy thừa ma trận không? (Như user2357112 đã chỉ ra, thực ra tôi đang tìm kiếm phép rút gọn mô-đun theo từng phần tử) Một cách để thực hiện phép lũy thừa mô-đun cho các số thông thường là sử dụng phép lũy thừa bình phương (https://en
Vectorized Gradient Descent Numpy
Tôi đã triển khai gradient descent này trong Numpy: def gradientDescent(X, y, theta, alpha, iterations): m = len(y) for i
Cách cài đặt Numpy mà không cần biên dịch mã nguồn
Tôi có một dự án chạy trên CentOS7 sử dụng Numpy. Vấn đề là việc cài đặt phần phụ thuộc này mất rất nhiều thời gian. Do đó, tôi đã thử yum cài đặt thư viện numpy trước khi pip cài đặt nó. Vì vậy, tôi chạy:
Numpy: Thay thế số không trong mảng numpy bằng mảng numpy
để xử lý dữ liệu tôi muốn xoay. Xin lưu ý rằng tôi chỉ sử dụng được numpy và không thể sử dụng pandas. Dữ liệu gốc như sau: dữ liệu = [ [ 1, a, [, ] ], [ 1, b, [, ] ], [ 2,
Hạt giống số ngẫu nhiên trong numpy
numpy.random.seed(7) Tôi đã thấy nhiều con số khác nhau cho tập hạt giống này trong nhiều hướng dẫn về phân tích dữ liệu và học máy khác nhau. Việc lựa chọn một số hạt giống cụ thể có thực sự tạo nên sự khác biệt không? Hoặc bất kỳ số nào cũng được? Mục đích của việc chọn số lượng hạt giống là để đảm bảo khả năng tái tạo của cùng một thí nghiệm.
Các tập tin được ánh xạ bộ nhớ cho mảng numpy
Tôi cần đọc một phần của mảng numpy khổng lồ được lưu trữ trong tệp ánh xạ bộ nhớ, xử lý dữ liệu và lặp lại cho phần khác của mảng. Toàn bộ mảng numpy chiếm khoảng 50 GB và máy của tôi có RAM 8 GB. Ban đầu tôi sử dụng numpy.m
Numpy: Thay thế số không trong mảng numpy bằng mảng numpy
để xử lý dữ liệu tôi muốn xoay. Xin lưu ý rằng tôi chỉ sử dụng được numpy và không thể sử dụng pandas. Dữ liệu gốc như sau: dữ liệu = [ [ 1, a, [, ] ], [ 1, b, [, ] ], [ 2,
Mục đích của numpy.empty() thay thế cho numpy.ndarray() là gì?
Có vẻ như bất cứ điều gì có thể thực hiện được với numpy.empty() đều có thể dễ dàng thực hiện được với numpy.ndarray(), ví dụ: >>> np.empty(shape=(2, 2), dtype=np.dtype('d
Khoảng cách Euclide tối thiểu từ cạnh này đến cạnh kia giữa các thành phần được gắn nhãn trong một mảng numpy
Tôi có nhiều dạng khác nhau trong một mảng numpy lớn và tôi muốn tính khoảng cách Euclide từ cạnh này đến cạnh kia giữa chúng bằng numpy và scipy. Lưu ý: Tôi đã tìm kiếm điều này và nó khác với các câu hỏi trước đó trong stack vì tôi muốn lấy giá trị của khối thẻ trong mảng
mảng numpy của mảng numpy python numpy
Tôi có một mảng numpy các đối tượng có kích thước (2x3). Chúng tôi gọi nó là M1. Trong M1 có 6 mảng numpy. Hình dạng của các mảng trong một hàng nhất định của M1 là giống nhau, nhưng chúng khác với hình dạng của các mảng trong bất kỳ hàng nào khác của M1. Nghĩa là, M1 = [ [
Ký hiệu Einstein cho tích vô hướng numpy
Làm thế nào tôi có thể viết tích vô hướng sau bằng cách sử dụng ký hiệu Einstein? nhập numpy dưới dạng np LHS = np.ones((5,20,2)) RHS = np.ones((20,2)) np.sum([ np.
Làm thế nào để có được một mảng numpy mới dựa trên điều kiện của hai mảng numpy khác chỉ bằng cách sử dụng các phép toán numpy?
Giả sử tôi có np.array của a = [0, 1, 1, 0, 0, 1] và b = [1, 1, 0, 0, 0, 1] Tôi muốn một ma trận c mới sao cho nếu a[i] = 0 và b[i] = 0
Numpy: tạo một loạt các mảng numpy bên trong một mảng numpy khác (định hình lại)
Tôi có một mảng numpy có dạng (32,5). Mỗi phần tử của lô chứa một mảng numpy batch_elem = [s,_,_,_,_] trong đó s = [img,val1,val
Không thể chuyển đổi mảng NumPy sang tensor (loại đối tượng không được hỗ trợ numpy.ndarray) - Dữ liệu đã được chuyển đổi sang mảng numpy
Hãy thử đào tạo mạng nơ-ron một lớp cho bài toán phân loại đa nhãn dựa trên văn bản. mô hình = Mô hình tuần tự().thêm(Dense(20, input_dim=400, kernel_initializer='
Tạo hiệu quả khối mảng numpy từ mảng numpy của mảng numpy 2D
Đầu tiên là một ví dụ đơn giản import numpy as np a = np.ones((2,2)) b = 2*np.ones((2,2)) c = 3*np.ones((2,2)) d = 4*np.
Tính trung bình một numpy.array 2D bằng cách sử dụng numpy.mean hoặc numpy.average
Tôi đang cố gắng tính trung bình một mảng numpy 2D. Vì vậy, tôi đã sử dụng numpy.mean nhưng kết quả lại là mảng rỗng. nhập numpy dưới dạng np ws1 = np.array(ws1) ws1_I8 = np.ar
Cách numpy để sắp xếp một mảng 2D numpy dựa trên một mảng chỉ mục numpy 2D là gì?
nhập numpy dưới dạng np x = np.array([[1,2 ,3], [9,8,7]]) y = np.array([[2,1 ,0], [1,0,2]]) x[y] Đầu ra mong đợi: ar
Phép nhân ma trận Python numpy với ma trận đường chéo
Tôi có hai mảng A (4000,4000) trong đó chỉ có đường chéo được điền dữ liệu và mảng B (4000,5) trong đó cả hai đều được điền dữ liệu. Có cách nào nhanh hơn để nhân (dot) các mảng này ngoài hàm numpy.dot(a,b) không? Cho đến nay, tôi đã tìm thấy

行者123

Hồ sơ cá nhân

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá Didi Taxi miễn phí

Các bài viết nóng hổi trên toàn bộ trang web

trang đầu

đã học

Trí tuệ nhân tạo 6Ren

Trung tâm mua sắm

Cửa sổ chồng chéo có điều kiện nhanh (khung) của mảng numpy