python - 以(伪)随机顺序从大列表中高效地生成元素-6ren

python - 以(伪)随机顺序从大列表中高效地生成元素

In lại 作者：太空狗更新时间：2023-10-29 19:27:07

27

4

我正在尝试展开一些嵌套循环，以牺牲内存为代价(可能)获得更好的性能。在我的场景中，我最终会得到一个包含大约 3 亿个元素(元组)的列表，我必须以(或多或少)随机顺序产生这些元素。

在这个数量级上，random.shuffle(some_list) 真的不再可行了。

下面的例子说明了这个问题。请注意，在 x86_64 Linux 和 CPython 3.6.4 上，它将占用大约 11 GByte 的内存。

def get_random_element():
    some_long_list = list(range(0, 300000000))
    for random_item in some_long_list:
        yield random_item

到目前为止，我的想法是每次迭代简单地生成一个随机索引，并从列表中(无限期地)产生随机选择的元素。它可能会多次生成某些元素并完全跳过其他元素，这是一个值得考虑的权衡。

在合理的内存和 CPU 时间范围内，我还有哪些其他选项可以只生成列表中的每个元素一次？

câu trả lời hay nhất

这是 Fisher-Yates-Knuth 就地采样 ( https://en.wikipedia.org/wiki/Fisher%E2%80%93Yates_shuffle )

内存稳定~4Gb(是的，我用的是100000000)

# Fisher-Yates-Knuth sampling, in-place Durstenfeld version

nhập numpy dưới dạng np

def swap(data, posA, posB):
    if posA != posB:
        data[posB], data[posA] = data[posA], data[posB]

def get_random_element(data, datalen):
    pos = datalen

    while pos > 0:
        idx = np.random.randint(low=0, high=pos) # sample in the [0...pos) range

        pos -= 1
        swap(data, idx, pos)

        yield data[pos]


length = 100000000
some_long_list = list(range(0, length))

gen = get_random_element(some_long_list, length)

for k in range(0, length):
    print(next(gen))

gia hạn

为了提高速度，您可能还想内联 swap()

关于python - 以(伪)随机顺序从大列表中高效地生成元素，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49188162/

27

4

0

Đề xuất bài viết: angular - 如果我发现自己一直在订阅另一个订阅中的内容，我应该怎么做？

Đề xuất bài viết: python - 带有 TK 的图形用户界面 - 按钮位置和操作

Đề xuất bài viết: python - 如何逐个补丁写入 png/tiff 文件？

Đề xuất bài viết: python - 如何将我的 Rest Api 服务器与我的 Web 套接字服务器通信

javascript - Tôi cần đặt văn bản vào trong một Div nằm trong một Div khác nằm trong một Div khác
Tôi cần đặt văn bản vào một Div, trong một Div khác, trong một Div khác. Vì vậy, nó trông như thế này: #document Thay đổi mã PIN
html - Hai hình nền. Một trong HTML và một trong BODY. Hình ảnh cơ thể không hiển thị trong Firefox
Những điều kỳ lạ đã xảy ra. Tôi có một mã html cơ bản. html, đầu, thân. (Vì tôi nhận được một số lượt phản đối nên đây là mã đầy đủ) Đây là CSS của tôi: html { backgroun
Đang tải hình ảnh từ assets.xcassets vào imageArray và tải động nó vào UIImageView hiện có trong UICollectionView - swift
Tôi đang cố tải một tập hợp hình ảnh từ Nội dung vào ImageView có trong UICollectionview nhưng bất cứ khi nào tôi chạy ứng dụng thì nó đều báo lỗi. Và cũng không có hình ảnh nào được hiển thị. Tôi đang ở ViewDidLoa
linux - Trong BASH, tôi cần thay đổi một số biến môi trường dựa trên đầu ra của tập lệnh Perl. Trong tcsh tôi có thể sử dụng kết hợp eval bí danh. không có trong bash
Tôi cần thay đổi một số biến môi trường dựa trên đầu ra của tập lệnh Perl có tham số. Trong tcsh, tôi có thể sử dụng lệnh bí danh để đánh giá kết quả đầu ra của tập lệnh Perl. tcsh: bí danh setsdk 'eval `/localhome/
asp.net - Xác thực Windows hoạt động trong IIS nhưng không hoạt động trong Kestrel/Microsoft.AspNetCore.Authentication.Negotiate (không phải trong Chrome, đôi khi trong Edge, luôn trong IE)?
Tôi đã tạo một ứng dụng Blazor (phía máy chủ) mới bằng Xác thực Windows và chạy nó bằng IIS Express. Nó sẽ hiển thị thông báo "Xin chào miền\Người dùng!" từ Ra sau ở trên cùng bên phải!
Tương đương với Kotlin trong java là gì?
Đây là phương thức void login(Event event) của tôi; Tôi muốn biết cách thực hiện nó trong Kotlin. Câu trả lời hay nhất Trong Kotlin, toán tử ký tự đại diện là *. Nó báo cho trình biên dịch rằng nó chưa được biết, nhưng một khi đã biết thì không có lớp nào khác
express - Trong Jade, tại sao đôi khi tôi có thể sử dụng các biến nguyên trạng và đôi khi phải gói chúng trong #{...}?
Hãy xem đoạn mã sau cho câu chuyện trong sách nếu story.title.length < 140 - var story
Sử dụng sai vòng lặp for trong strstr() trong C
Tôi đang cố gắng học xử lý chuỗi trong C. Tôi đã viết một chương trình lưu trữ một số bản nhạc và giúp người dùng kiểm tra xem bài hát mà họ nghĩ đến có tồn tại trong các bản nhạc được lưu trữ hay không. Điều này được thực hiện bằng cách yêu cầu người dùng nhập một chuỗi ký tự. Chương trình sau đó sử dụng strstr()
c - * trong sscanf, * trong []
Tôi đang học sscanf và gặp chuỗi định dạng sau: sscanf("%[^:]:%[^*=]%*[*=]%n",a,b,&c); Phần ] có nghĩa là quét cho đến khi gặp ':' và gán nó cho a. :
Trong Python (2.7.3), làm cách nào tôi có thể viết hàm để trả lời nếu có bất kỳ ký tự nào trong str(x) nằm trong str(y) (hoặc str(y) nằm trong str(x))?
def char_check(x,y): nếu (str(x) trong y hoặc x.find(y) > -1) hoặc (str(y) trong x hoặc y.find(x) > -1):
ansible — Làm cách nào để di chuyển một hàng thành một khối trong Ansible?
Tôi gặp tình huống muốn đưa các dòng hiện có từ tệp văn bản vào một khối mới. dòng 1 dòng 2 dòng trong khối dòng 3 dòng 4 sẽ trở thành dòng 1 dòng 2 dòng
Thanh công cụ gỡ lỗi Django xuất hiện trong URL gốc nhưng không xuất hiện trong URL ứng dụng
Tôi có một dự án mới và tôi đang cố gắng thiết lập thanh công cụ gỡ lỗi Django. Trước tiên, tôi đã thử thiết lập nhanh, việc này chỉ đơn giản là thêm 'debug_toolbar' vào danh sách các ứng dụng đã cài đặt của tôi. Với điều này, khi tôi truy cập URL gốc của mình, việc gỡ lỗi
Trong R, điều khiển hàm @ trong Matlab tương đương với điều gì?
Trong Matlab, nếu tôi có hàm f, giả sử chữ ký là f(a,b,c), tôi có thể tạo một hàm chỉ có một biến b, biến này sẽ gọi f với a=a1 và c=c1 cố định: g = @(b) f(a1, b,
Khoảng cách hoặc phần đệm bí ẩn trong phần tử VStack trong ScrollView trong SwiftUI
Tôi không hiểu tại sao lại có thêm khoảng cách dọc giữa các phần tử trong ForEach khi hiển thị các dải phân cách ngang tùy chỉnh bên trong VStack khi sử dụng GeometryReader bên trong ScrollView. Cuộn
Cookies - Những gì nên được lưu trữ trong phiên và những gì nên được lưu trữ trong cookie?
Tôi đang tự hỏi, có hướng dẫn hoặc phương pháp hay nhất nào về thời điểm sử dụng phiên và cookie không? Những gì nên và không nên lưu trữ trong đó? Cảm ơn bạn! Câu trả lời hay nhất Những tài liệu này cung cấp sự hiểu biết tốt về các vấn đề bảo mật cookie phiên và
Hành vi kỳ lạ của biểu đồ 3d trong matplotlib trong Python
Tôi có ma trận Nx3 ở dạng scipy/numpy và tôi muốn sử dụng nó để tạo biểu đồ thanh 3 chiều, trong đó trục X và Y được xác định bởi các giá trị của cột thứ nhất và thứ hai của ma trận và chiều cao của mỗi thanh ở cột thứ ba của ma trận, số lượng thanh được xác định bởi N.
c - Cách sử dụng khác nhau của các tham số giá trị trong sem_init(...) trong c
Giả sử tôi khởi tạo semaphore theo hai cách khác nhau sem_init(&randomsem,0,1) sem_init(&randomsem,0,0) Bây giờ, sem_wait(&randomsem) trong cả hai trường hợp
c - Giá trị thực được lưu trong pstr nhưng giá trị được lưu trong mảng "WORD" như thế nào
Tôi nghi ngờ cách giá trị được lưu trữ trong "WORD" vì PStr chứa đầu ra thực tế. ? Vì Pstr lưu trữ chữ thường thành chữ in hoa, làm sao nó có thể được đưa ra dưới dạng "WORD" trong printf. Có ai có thể vui lòng không? Giải thích? #bao gồm
Lựa chọn chỉ mục mảng như trong numpy nhưng trong javascript
Tôi có một mảng 3x3: var my_array = [[0,1,2], [3,4,5], [6,7,8]];
Làm cách nào để phát hiện khi cửa sổ trình duyệt ở Chế độ xem trong Javascript?
Tôi nhận ra rằng bạn có thể dễ dàng kiểm tra tiêu điểm bằng cách sử dụng: var hasFocus = true; $(window).blur(function(){ hasFocus = false; });

trang đầu

đã học

6Ren AI

Trung tâm mua sắm

python - 以(伪)随机顺序从大列表中高效地生成元素