python - 本地使用 dask : to Client() or not to Client()?-6ren

python - 本地使用 dask : to Client() or not to Client()?

In lại 作者：太空宇宙更新时间：2023-11-03 15:44:50

30

4

我想了解 Dask 在本地机器上的使用模式。

具体而言，

我有一个适合内存的数据集
我想做一些 pandas 操作
- 分组依据...
- 日期解析
- vân vân.

Pandas 通过单核执行这些操作，这些操作对我来说要花费数小时。我的机器上有 8 个内核，因此，我想使用 Dask 尽可能地并行化这些操作。

我的问题如下:在 Dask 中执行此操作的两种方式有什么区别:

nhập pandas dưới dạng pd
from sklearn.datasets import load_iris

iris = load_iris()

(1)

import dask.dataframe as dd

df = dd.from_pandas(
    pd.DataFrame(iris.data, columns=iris.feature_names),
    npartitions=2
)

df.mean().compute()

(2)

import dask.dataframe as dd
from distributed import Client

client = Client()

df = client.persist(
    dd.from_pandas(
        pd.DataFrame(iris.data, columns=iris.feature_names),
        npartitions=2
    )
)

df.mean().compute()

一种使用模式相对于另一种使用模式有何优势？为什么我应该使用一个而不是另一个？

1 Câu trả lời

版本 (2) 与版本 (1) 相比有两个不同之处:选择使用分布式调度程序，以及 persist。这些是不同的因素。有很多关于两者的文档:https://distributed.readthedocs.io/en/latest/quickstart.html , http://dask.pydata.org/en/latest/dataframe-performance.html#persist-intelligently ，所以这个答案可以保持简短。

1) 分布式调度器比以前的线程和多进程调度器更新、更智能。顾名思义，它既可以使用集群，也可以在单机上工作。虽然调用 .compute() 时的延迟通常较高，但在许多方面它更高效，具有更高级的功能(例如实时动态编程)和更多诊断功能(例如仪表板)。使用Client()创建时，默认获得与核心数相等的进程数，但您可以选择进程数和线程数，接近原始的只有线程的情况使用 Client(processes=False).

2) 持久化意味着评估计算并将其存储在内存中，以便进一步的计算更快。您也可以在没有分布式客户端 (dask.persist) 的情况下进行持久化。它有效地提供了以内存换取性能的交易，因为您不需要每次将它用于任何依赖于它的计算时都重新评估计算。如果您继续在中间体上仅执行一次计算，如示例中所示，它应该不会对性能产生影响。

关于python - 本地使用 dask : to Client() or not to Client()?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50614761/

30

4

0

Bài viết được đề xuất: security - Paypal 数据在存储之前应该加密吗？

Bài viết được đề xuất: python - 如何检测小部件是否在视线范围内？ pyqt

Bài viết được đề xuất: session - 重定向到外部网站时，Laravel session 不会持续存在

Bài viết được đề xuất: python - 如何在pytest中捕获异常后打印消息

Sử dụng WebScriptEndpoint để sử dụng dịch vụ WCF bằng javascript
Tôi đã tìm kiếm trực tuyến nhưng không tìm thấy bài viết phù hợp nào giải thích cách sử dụng dịch vụ WCF bằng javascript, đặc biệt là WebScriptEndpoint. Có ai có thể hướng dẫn về vấn đề này không? Cảm ơn câu trả lời hay nhất. Đây là bài viết về
Không có kết quả!! Sử dụng fork() Sử dụng dup2 Sử dụng 2 đường ống để chạy execlp()
Tôi đang viết một chương trình C sẽ chạy các lệnh Linux, ví dụ: cat /etc/passwd | grep list | cut -c 1-5 Tôi không nhận được kết quả nào *ở đây cha đợi con đầu tiên (chi
python - Xử lý việc tải tệp lên, thay đổi kích thước bằng Pillow, lưu trữ bằng SQLAlchemy, phục vụ bằng Flask
Vì vậy, tôi đang cố gắng xử lý việc tải tệp lên và sau đó lưu trữ tệp đó vào cơ sở dữ liệu dưới dạng tệp nhị phân. Sau khi lưu trữ, tôi cố gắng phục vụ tệp theo URL đã cho. Có vẻ như tôi không thể tìm ra phương pháp nào hiệu quả ở đây. Tôi cần sử dụng cơ sở dữ liệu vì tôi sử dụng Google Apps
Sự cố khi thêm công thức vào ô bằng IF sử dụng VBA - Stack Overflow
Tôi đang cố gắng tạo một macro thêm công thức bên dưới vào một ô rồi kéo công thức đó xuống toàn bộ cột và sao chép công thức đó vào cột H. Tôi muốn nhập dữ liệu vào cột F và H cho công thức: Range("F1").formula = "=IF(ISE
Phân tích cú pháp ứng dụng hàm bằng OperatorPrecedenceParser sử dụng FParsec?
Vấn đề này tương tự như vấn đề này, nhưng tôi muốn sử dụng OperatorPrecedenceParser để phân tích cú pháp một biểu thức với ứng dụng hàm trong FParsec. Đây là AST của tôi: type Expression =
Mã hóa số lượng sử dụng truy vấn where sử dụng sequelize
Tôi muốn thay đổi truy vấn này thành mã bằng cách sử dụng sequelize và node.js tùy thuộc vào nơi select COUNT(gender) as genderCount from customers where
Việc gán Bash sử dụng "let" không thành công với "/"
Tôi đang sử dụng GNU bash, phiên bản 5.0.3(1)-release (x86_64-pc-linux-gnu), và tôi tự hỏi tại sao tôi lại gặp lỗi cú pháp cho một câu lệnh gán đơn giản: #/bin/bash var1=/tmp
Có lỗi khi lặp qua một mảng bằng cách sử dụng FOR OF trong JavaScript?
Sau đây là lý do tại sao mã của tôi không hoạt động trong IE. Mã của tôi hoạt động tốt trên mọi trình duyệt. Không có gì. Nhưng khi tôi chạy dự án của mình trên IE, nó lại phát hiện lỗi. Và lớp jquery và insertadjacentHTMl của tôi không hoạt động
Thay đổi nội dung thẻ biểu mẫu bằng thuộc tính for sử dụng javascript
Tôi đang cố gắng thay đổi innerHTML của một thẻ. Tôi không có quyền truy cập vào biểu mẫu nên không thể chỉnh sửa HTML. Mã định danh duy nhất của thẻ là thuộc tính "for". Sau đây là cấu trúc của đầu vào và nhãn:
Đính kèm một sự kiện vào một nút được chèn động trên một trang bằng cách sử dụng .on() bằng jquery
Tôi có một trang nơi tôi trả về bài đăng của người dùng, có thể bình luận tức thời vào các bài đăng đó bằng một số mã jquery và sau khi có bình luận mới, tôi chèn bình luận mới vào bên dưới bài đăng cùng với nút xóa. Vấn đề là nút Xóa không hoạt động trên phần tử mới được chèn vào,
Sử dụng awk để băm bằng sha1sum
Tôi có một tệp "phân cách bằng dấu gạch ngang" với khoảng 20 cột. Tôi chỉ muốn băm cột đầu tiên là một số như số tài khoản bằng cách sử dụng sha1sum và trả về phần còn lại của các cột theo nguyên trạng. Cách tốt nhất để thực hiện việc này bằng awk hoặc sed là gì? Tài khoản
Sử dụng lệnh insert vào sử dụng mysql
Tôi cần chèn nội dung sau vào bảng của mình... Bảng người dùng của tôi có năm cột id, tên người dùng, mật khẩu, tên, mục nhập. (Tôi chưa gửi bất cứ thứ gì vào mục nhập, tôi sẽ làm sau bằng php) nhưng vì lý do nào đó tôi cứ nhận được lỗi này: #1054 - U
Cắt giá trị trường nhập liệu thành các ký tự chữ và số / sử dụng jQuery
Vì vậy, tôi đang cố gắng tạo một trường nhập liệu mà tôi có thể nhập bất kỳ ký tự nào vào đó, sau đó viết thường giá trị đã nhập, xóa mọi ký tự không phải chữ và số, chỉ để lại dấu "." thay cho dấu cách. Ví dụ, nếu tôi nhập: 70% Trái Đất là nước, -!*#$^^ & 30% đất
Sử dụng .innerHTML với DOM
Tôi đang cố gắng làm một điều mà tôi nghĩ là khá đơn giản nhưng vì lý do nào đó tôi lại không nhận được kết quả như mong muốn? Tôi mới làm quen với javascript nhưng đã có kinh nghiệm với java nên chắc chắn là tôi không sử dụng quy tắc chính xác nào cả. Đây là phương pháp để lấy giá trị đầu vào, kiểm tra lựa chọn
Lấy dữ liệu từ cơ sở dữ liệu bằng cách sử dụng mệnh đề where sử dụng angularjs
Tôi đang cố gắng tải dữ liệu từ cơ sở dữ liệu mysql bằng angularjs. Ứng dụng hoạt động theo cách này: người dùng đăng nhập và tên người dùng của họ được lưu trữ trong cookie. Tên người dùng này được hiển thị trên trang chủ Tôi muốn lấy giá trị này và truyền nó qua angularjs
Sử dụng UITableViewCell với AutoLayout
Tôi đang sử dụng autoLayout và muốn đặt UIlabel vào UITableViewCell và nó phải luôn nằm ở bên phải và ở giữa ô. Đây là những gì tôi muốn đạt được vì vậy ở đây bạn có thể thấy những gì tôi đang nói đến
Tìm kiếm nhiều trường bằng ElasticSearch sử dụng toán tử or và
Tôi cần truy vấn elasticsearch tương đương với MySql. Truy vấn sql của tôi: SELECT DISTINCT t.product_id AS id FROM tbl_sup_price t
Sử dụng JSON với Swift
Tôi đang triển khai mã để làm việc với JSON. func setup() { nếu let flickrURL = NSURL(string: "https://api.flickr.com/
Khai báo biến sử dụng vòng lặp for sử dụng JavaScript javascript
Tôi đã thử sử dụng vòng lặp for để khai báo các biến và sau đó kiểm tra xem cols và rols có giống nhau không. Nếu đúng như vậy, nó sẽ chạy hàm đệ quy. Tuy nhiên, tôi đang gặp sự cố khi thực hiện lệnh do trong javascript. Có ai có thể giúp được không? Bây giờ, khi so sánh cột 1 và
Sử dụng :after để thay đổi phong cách với jquery
Tôi đã đưa ra một ví dụ ngắn về một vấn đề mà tôi đang giải quyết. Mã HTML: 1 2 3 Mã CSS: .BB a:hover{ color: #000; } .BB > li:after {

trang đầu

đã học

Trí tuệ nhân tạo 6Ren

Trung tâm mua sắm

python - 本地使用 dask : to Client() or not to Client()?