sách gpt4 ai đã đi

scala - Spark 卡在删除广播变量(可能)

In lại 作者:行者123 更新时间:2023-12-04 18:21:29 33 4
mua khóa gpt4 Nike

Spark 2.0.0-预览版

我们有一个应用程序使用了相当大的广播变量。我们在大型 EC2 实例上运行它,因此部署处于客户端模式。广播变量是一个巨大的 Map[String, Array[String]].

hiện hữu saveAsTextFile 结束时,文件夹中的输出似乎是完整和正确的(除了 .crc 文件仍然存在)但是 spark-submit 过程似乎停留在删除广播变量上。卡住的日志如下所示:http://pastebin.com/wpTqvArY

在执行 saveAsTextFile 之后,我的最后一次运行持续了 12 小时 - 只是坐在那里。我在驱动程序进程上做了一个 jstack,大多数线程都已停放:http://pastebin.com/E29JKVT7

全文:

我们将此代码与 Spark 1.5.0 一起使用并且它有效,但随后数据发生变化并且某些内容停止适合 Kryo 的序列化缓冲区。增加它没有帮助,所以我不得不禁用 KryoSerialiser。再次测试 - 它挂了。切换到 2.0.0-preview - 似乎是同一个问题。

鉴于几乎没有 CPU 事件且日志中没有输出,我什至不确定发生了什么,但输出并没有像以前那样最终确定。

非常感谢任何帮助,谢谢。

1 Câu trả lời

我有一个非常相似的问题。

我正在从 spark 1.6.1 更新到 2.0.1,我的步骤在完成后挂起。

最后,我设法通过在任务末尾添加一个 sparkContext.stop() 来解决它。

不确定为什么需要它,但它解决了我的问题。希望这可以帮助。

ps:这篇文章让我想起了这个https://xkcd.com/979/

关于scala - Spark 卡在删除广播变量(可能),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38311045/

33 4 0
行者123
Hồ sơ cá nhân

Tôi là một lập trình viên xuất sắc, rất giỏi!

Nhận phiếu giảm giá Didi Taxi miễn phí
Mã giảm giá Didi Taxi
Giấy chứng nhận ICP Bắc Kinh số 000000
Hợp tác quảng cáo: 1813099741@qq.com 6ren.com