Spark/scala 中的 SQL 查询大小超过 Integer.MAX

Spark/scala 中的 SQL 查询大小超过 Integer.MAX_VALUE

In lại 作者：行者123 更新时间：2023-12-03 10:33:37

27

4

我正在尝试使用 Spark 在 S3 事件上创建一个简单的 sql 查询。我正在加载 ~30GB 的 JSON 文件，如下所示:

val d2 = spark.read.json("s3n://myData/2017/02/01/1234");
d2.persist(org.apache.spark.storage.StorageLevel.MEMORY_AND_DISK);
d2.registerTempTable("d2");

然后我试图写入文件我的查询结果:

val users_count = sql("select count(distinct data.user_id) from d2");
users_count.write.format("com.databricks.spark.csv").option("header", "true").save("s3n://myfolder/UsersCount.csv");

但 Spark 抛出以下异常:

java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE
at sun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:869)
at org.apache.spark.storage.DiskStore$$anonfun$getBytes$2.apply(DiskStore.scala:103)
at org.apache.spark.storage.DiskStore$$anonfun$getBytes$2.apply(DiskStore.scala:91)
at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1287)
at org.apache.spark.storage.DiskStore.getBytes(DiskStore.scala:105)
at org.apache.spark.storage.BlockManager.getLocalValues(BlockManager.scala:439)
at org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:672)
at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:330)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:281)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:79)
at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:47)
at org.apache.spark.scheduler.Task.run(Task.scala:85)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)

请注意，相同的查询适用于更少量的数据。这里有什么问题？

1 Câu trả lời

没有 Spark shuffle 块可以大于 2GB(Integer.MAX_VALUE 字节)，因此您需要更多/更小的分区。

您应该调整 spark.default.parallelism 和 spark.sql.shuffle.partitions(默认为 200)，以便分区数量可以容纳您的数据而不会达到 2GB 的限制(您可以尝试瞄准 256MB/分区，因此对于 200GB，您将获得 800分区)。数千个分区很常见，所以不要害怕按照建议重新分区到 1000 个。

仅供引用，您可以使用 rdd.getNumPartitions(即 d2.rdd.getNumPartitions)之类的内容检查 RDD 的分区数

有一个故事来跟踪解决各种 2GB 限制(现已开放一段时间)的努力:https://issues.apache.org/jira/browse/SPARK-6235

Nhìn thấy http://www.slideshare.net/cloudera/top-5-mistakes-to-avoid-when-writing-apache-spark-applications/25有关此错误的更多信息。

关于Spark/scala 中的 SQL 查询大小超过 Integer.MAX_VALUE，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42247630/

27

4

0

Bài viết được đề xuất: Homebrew 软件 - 如何安装旧版本

Bài viết được đề xuất: android-studio - 错误 : Your project contains C++ files but it is not using a supported native build

Bài viết được đề xuất: jenkins - 在Jenkins管道脚本中隐藏密码

Bài viết được đề xuất: Create-React-App:从 node_module 目录包含 CSS 的最佳方式是什么

JTextPane trong JScrollPane trong JPanel trong JFrame
Điều tôi muốn làm là để JTextPane chiếm càng nhiều không gian càng tốt trong JPanel. Đối với UpdateInfoPanel tôi sử dụng: public class UpdateInfoPanel extends JP
Vấn đề với JScrollPane trong JTextArea trong JPanel trong JFrame
Tôi có một JTextArea trong JPanel và tôi muốn sử dụng nó với JScrollPane. Tôi đang sử dụng GridBagLayout. Khi tôi chạy nó, khung dường như tạo chỗ cho JScrollPane, nhưng
UITableView trong UIView trong UIViewController trong Xcode ios swift uitableview
Tôi muốn đạt được chức năng sau trong xcode. Tôi có một Bộ điều khiển chế độ xem. Trong UIViewController này, tôi có một UITabBar. Bên dưới chúng là UIView. UITab
Hàm tương đương với STUFF trong SQL (GROUP_CONCAT trong MySQL / LISTAGG trong Oracle)
Có ai biết trong Firebird 2.5 có chức năng nào tương tự như hàm "STUFF" trong SQL không? Tôi có một bảng chứa các bản ghi người dùng cha và một bảng khác chứa các bản ghi người dùng con liên quan đến cha. Tôi muốn có thể trích xuất một chuỗi được phân tách bằng dấu phẩy của "ROLES" mà người dùng có, trong khi
Phân tích cú pháp Json trong Mirth hoặc Json trong Mirth hoặc HL7 sang JSON trong Mirth
Tôi muốn sử dụng JSON làm đầu vào và đầu ra của kênh mirth, ví dụ như thông tin chi tiết được lưu trong cơ sở dữ liệu hoặc tin nhắn HL7 được tạo. Nói tóm lại, đầu vào là JSON, phân tích cú pháp và đầu ra là bất kỳ định dạng nào. Câu trả lời hay nhất: var object
Nếu cột A trong tệp 1 = cột A trong tệp 2, thì thay thế bằng cột B trong tệp 2
Thông thường tôi sẽ sử dụng R và thực hiện merge.by, nhưng tệp này có vẻ quá lớn đối với bất kỳ máy tính nào trong khoa để xử lý! (Thông tin bổ sung cho bất kỳ ai làm việc trong lĩnh vực di truyền học) Về cơ bản, việc quy imputation dường như đã xóa các số rs cho ID snp và tôi còn lại
HAML trong Javascript
Tôi có một câu hỏi có thể đã được hỏi trước đây, nhưng tôi đang gặp khó khăn trong việc tìm ra mô tả phù hợp. Tôi hy vọng có ai đó có thể giúp tôi. Trong mã bên dưới, tôi đã đặt varprice và tôi muốn thêm biến javascript accu_id để tra cứu bản ghi trong cơ sở dữ liệu của tôi thông qua rails
SVG trong HTMLHTML trong HTML
Tôi có một tệp SVG đơn giản hiển thị tốt trên Firefox - tệp này có một số văn bản được bao bọc chứa một số mã HTML bằng cách sử dụng foreignObject - văn bản được bao bọc trong một div:
"Hoặc" trong khối If trong Ruby
Vì vậy, tôi đang viết một chương trình Ruby cho trường học để thay đổi giá trị bool thành true nếu giá trị là 1 hoặc 3 và thành false nếu giá trị là 0 hoặc 2. Vì tôi có kiến thức nền về Java nên tôi nghĩ đoạn mã này sẽ hoạt động:
Cách gọi hàm AWS Lambda trong tài khoản B (Lambda này trong VPC) từ Lambda trong tài khoản A (Lambda trong VPC)
Những gì tôi đã làm: Tôi đã tạo kết nối ngang hàng VPC giữa các tài khoản này. Internet Gateway cũng được đính kèm vào mỗi VPC. Ngoài ra, tôi cũng đã cấu hình bảng định tuyến (để cho phép lưu lượng truy cập từ cả hai phía). Trường hợp 1: Khi cả hai VPC đều nằm trong cùng một tài khoản, tôi đã thử nghiệm thành công kết nối từ một La khác.
Làm thế nào để lấy được các hàng có giá trị 1 trong cột 1 và giá trị 2 trong cột 2 nhưng giá trị 2 trong cột 1 không có giá trị 1 trong cột 2?
Tôi có một bảng có tên là danh bạ: user_id contact_id 10294 10295 10294 10293 10293 10294 102
getChildHtml trong foreach trong Magento
Tôi đang sử dụng mẫu mới trong Magento. Để tránh trùng lặp mã, tôi muốn sử dụng cùng một mẫu con cho mỗi bản xem trước sản phẩm. Cụ thể, tôi đã tạo một màn hình như thế này: $products = Mage::getModel('catalog/pro
"Defimpl" trong "for" trong Elixir thực sự kiểm tra điều gì?
"for" có luôn kiểm tra loại đối số đầu tiên trong mọi hàm được định nghĩa trong giao thức không? Chỉnh sửa (sửa lại): Khi một phương thức giao thức chỉ có một tham số, một triển khai sẽ được tìm thấy dựa trên kiểu của tham số duy nhất đó (trực tiếp hoặc tùy ý). Khi thỏa thuận (p
PHP trong JavaScript PHP trong JavaScript
Tôi muốn gọi một hàm JavaScript từ mã PHP của mình. Tôi đã thực hiện điều này bằng cách sử dụng: echo ' drawChart($id); '; Điều này hoạt động tốt nhưng tôi muốn lấy dữ liệu từ mã PHP của mình và tôi sử dụng
JavaScript trong HTML trong HTML
Câu hỏi này đã có câu trả lời: Liên kết sự kiện trên các phần tử được tạo động? (23 câu trả lời) Đã đóng 5 năm trước. Tôi có một biểu mẫu động mà tôi muốn thêm một số h khác
setState trong .map trong componentDidMount()
Tôi đang cố tìm giải pháp để sử dụng setState trên một mục bản đồ trong componentDidMount. Tôi đang sử dụng GraphQL với Gatsby để trả về nhiều mục dữ liệu, nhưng yêu cầu
OnTouchListener trong View bên trong ScrollView
Tôi có một View bên trong một ScrollView. Miễn là người dùng giữ nút View, tôi muốn gọi một phương thức sau mỗi 80 mili giây. Đây là những gì tôi đã thực hiện: final Runnable rung = new Runnab
dvmAbort trong dvmDecodeIndirectRef trong GetStringUTFChars
Tôi đã phát triển một ứng dụng Android bằng jni. Tôi nhận được lỗi dvmabort trong dvmDecodeIndirectRef của GetStringUTFChars. Tôi chỉ dừng lại một lần. Tại sao lại thế này
RecyclerView trong FragmentPagerAdapter trong Activity
Khi đến phần Hoạt động, tôi gọi FragmentPagerAdapter để xử lý các tab khác nhau. Trong một trong các tab của tôi, tôi muốn hiển thị RecyclerView nhưng nó không bao giờ xuất hiện, với các điểm dừng mà tôi thấy
RecyclerView trong DialogFragment trong Activity
Khi tôi nhấn một nút trong Activity, DialogFragment sẽ bật lên. Trong đoạn hộp thoại, có một RecyclerView trông giống như một ListView bình thường. Hành vi tôi muốn là khi

trang đầu

đã học

Trí tuệ nhân tạo 6Ren

Trung tâm mua sắm

Spark/scala 中的 SQL 查询大小超过 Integer.MAX_VALUE