sách gpt4 ai đã đi

hadoop - Sort 在 MapReduce 阶段用在什么地方,为什么?

In lại 作者:可可西里 更新时间:2023-11-01 14:15:46 31 4
mua khóa gpt4 Nike

我是 hadoop 的新手。不清楚为什么我们需要在使用 hadoop mapreduce 时能够按键排序?在 map 阶段之后,我们需要将每个唯一键对应的数据分发给一定数量的 reducer。这可以在不需要排序的情况下完成,对吗?

1 Câu trả lời

它就在那里,因为排序是对键进行分组的巧妙技巧。当然,如果您的工作或算法不需要您的 key 的任何顺序,那么您可以更快地通过一些哈希技巧进行分组。

在 Hadoop 本身中,多年来已经有一个 JIRA 归档(nguồn)。位于 Hadoop 之上的其他几个发行版已经具有这些功能,例如 Hanborq(他们称之为避免排序)。 ( nguồn )

对于您的实际问题(为什么),MapReduce 本质上是来自 Google (nguồn) 的一篇论文,其中陈述如下:

We guarantee that within a given partition, the intermediate key/value pairs are processed in increasing key order. This ordering guarantee makes it easy to generate a sorted output file per partition, which is useful when the output file format needs to support efficient random access lookups by key, or users of the output find it convenient to have the data sorted.

因此,支持排序更像是一个方便的决定,而不是固有地只允许对分组键进行排序。

关于hadoop - Sort 在 MapReduce 阶段用在什么地方,为什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11746311/

31 4 0
Bài viết được đề xuất: java - 为什么将 Mapper 和 Reducer 类声明为静态的?
Bài viết được đề xuất: windows - IIS7 只允许访问本地网络
Bài viết được đề xuất: hadoop - 分区! hadoop是怎么做到的?使用哈希函数?默认功能是什么?
Bài viết được đề xuất: Lệnh Hadoop
可可西里
Hồ sơ cá nhân

Tôi là một lập trình viên xuất sắc, rất giỏi!

Nhận phiếu giảm giá Didi Taxi miễn phí
Mã giảm giá Didi Taxi
Giấy chứng nhận ICP Bắc Kinh số 000000
Hợp tác quảng cáo: 1813099741@qq.com 6ren.com