hadoop - Cách phân phối Giảm công việc (giảm nhiều công việc) trong Yarn (Hadoop 2.2.0)-6ren

hadoop - Cách phân phối công việc Giảm (giảm nhiều công việc) trong Yarn (Hadoop 2.2.0)

In lại Tác giả: Hồ Xil Thời gian cập nhật: 2023-11-01 15:38:26

Tôi đã sử dụng máy chủ HADOOP 1.2.1 và thực hiện nhiều công việc lợn ở đó. Gần đây, tôi đã cân nhắc việc thay đổi máy chủ Hadoop của mình thành HADOOP 2.2.0. Vì vậy, tôi đã thử một số công việc lợn trong HADOOP 2.2.0, giống như tôi đã làm trong phiên bản HADOOP 1.2.1.

Nhưng có một điều mà tôi khó hiểu ở YARN MR2 là chỉ có một công việc giảm bớt được lên lịch trong mỗi công việc của ông.

Lúc đầu, tôi nghĩ là có, giảm nhanh hơn mr1 vì người quản lý tài nguyên lên lịch công việc giảm một cách hiệu quả bằng cách xử lý nó chỉ trên một máy chủ.

Nhưng trong mỗi công việc Mr lớn, YARN MR2 chỉ phân bổ một công việc Giảm tại một thời điểm.

Sau đây là một trường hợp cực đoan.

Máy chủ HADOOP (phiên bản 1.2.1) cũ của tôi bao gồm 1 trình theo dõi công việc và 2 trình theo dõi tác vụ. (mỗi lõi 4 lõi, 32G)

Loại Tổng số nhiệm vụ (thành công+thất bại+bị giết) Nhiệm vụ thành công Nhiệm vụ thất bại Nhiệm vụ đã chết Thời gian bắt đầu Thời gian kết thúc Thiết lập 1 1 0 0 27-Jan-2014 18:01:45 27-Jan-2014 18:01:46 (0sec)Map 2425 2423 0 2 27-01-2014 18:01:26 27-01-2014 19:08:58 (1 giờ, 7 phút, 31 giây)Giảm 166 163 0 3 27-01-2014 18:04:35 27-01-2014 20:40:15 (2 giờ, 35 phút, 40 giây)Dọn dẹp 1 1 0 0 27-Jan-2014 20:40:16 27-Jan-2014 20:40:17 (1sec)

Phải mất 2 giờ 38 phút.

Máy chủ HADOOP (phiên bản 2.2.0) mới của tôi bao gồm 1 trình quản lý tài nguyên và 8 trình quản lý nút. (4 lõi mỗi lõi, 32G) (Hệ thống mới tốt hơn nhiều)

Tên công việc: PigLatin:DefaultJobNameTên người dùng: hduserQueue: defaultState: SUCCEEDEDUberized: falseBắt đầu: Thứ ba ngày 28 tháng 1 16:09:41 KST năm 2014Kết thúc: Thứ ba ngày 28 tháng 1 21:47:45 KST 2014Đã trôi qua: 5 giờ, 38 phút, 4 giâyChẩn đoán: Thời gian bản đồ trung bình 41 giâyThời gian giảm trung bình 3 giờ, 48 phút, 23 giây Thời gian xáo trộn trung bình 1 giờ, 36 phút, 35 giây Thời gian hợp nhất trung bình 1 giờ, 27 phút, 38 giâyApplicationMasterSố lần thử Thời gian bắt đầu Nhật ký nút1 Thứ ba ngày 28 tháng 1 16:09:39 KST 2014 awdatanode2:8042 logsLoại nhiệm vụ Tổng số Hoàn thànhBản đồ 1172 1172Giảm 1 1Loại nỗ lực Thất bại Giết Thành côngBản đồ 0 1 1172Giảm 0 0 1

Phải mất 5 giờ 38 phút.

Mặc dù máy chủ Hadoop cũ của tôi có tài nguyên kém nhưng nó nhanh hơn nhiều so với Hadoop mới. Vì công việc được giao ít hơn. Mặt khác, máy chủ HADOOP 2.2.0 có tài nguyên phong phú, bản đồ nhanh hơn nhiều so với hệ thống cũ nhưng việc rút gọn lại mất rất nhiều thời gian.

Cấu hình bộ nhớ Hadoop 2.2 là Map (4G, vùng heap 3G) và Giảm (8G, vùng heap 6G). Tôi đã thử nhiều bộ cấu hình khác nhau. Nhưng kết quả luôn là làm việc ít hơn.

Vì vậy tôi đã kiểm tra mã nguồn của lợn.

Lý do tại sao công việc My Pig luôn thực hiện công việc rút gọn là vì lớp inputSizeReducerEstimator không thể truy cập hệ thống tệp hdfs.

// dòng 79 của inputSizeReducerEstimator.java Danh sách poLoads = PlanHelper.getPhysicalOperators(mapReduceOper.mapPlan, POLoad.class);

Kết quả là poLoad luôn có kích thước bằng 0.

Vì vậy, công việc giảm bớt của tôi luôn được ước tính là một.

câu trả lời hay nhất

Tôi đã giải quyết vấn đề bằng cách xây dựng lại bản dựng pig-0.12.1-h2.jar.

Tôi đã hỏi nhóm người dùng lợn...họ

https://issues.apache.org/jira/browse/PIG-3512

Về hadoop - cách phân phối Giảm công việc (giảm nhiều công việc) trong Sợi (Hadoop 2.2.0), chúng tôi đã tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/21424455/

Bài viết khuyến nghị: hadoop - Làm cách nào để tạo tệp ORC trong Hive CDH?

Bài viết khuyến nghị: hadoop - Hive mất nhiều thời gian để bắt đầu công việc hadoop

Bài viết khuyến nghị: giá trị dài trong Visual Studio

Bài viết khuyến nghị: sql - Truy vấn trong Hive

javascript - 从另一个 reducer 中的一个 reducer 访问 reducer 状态的一部分
Tôi không biết cách truy cập cờ isLoading của giá trị bool từ bộ giảm tốc của bộ giảm tốcForm.js trong bộ giảm tốcRegister.js. Tôi đã sử dụng CombineReducers() và
bộ giảm tốc - Cách tốt nhất để cập nhật các trường trạng thái liên quan bằng cách sử dụng bộ giảm tốc?
Tôi đang cố gắng tìm một cách lý tưởng để cập nhật một số trường cấp cao nhất trên cây trạng thái của mình trong khi vẫn duy trì bộ giảm phân chia. Đây là một giải pháp đơn giản mà tôi đã nghĩ ra. trạng thái var = { fileOrder: [0],
hadoop: đầu ra bộ giảm tốc sang bộ giảm tốc khác
Nếu chúng ta muốn nhóm theo cùng một khóa (đầu ra của bộ giảm tốc đầu tiên), có thể gửi trực tiếp đầu ra của bộ giảm tốc sang một bộ giảm tốc khác Đôi khi trong khi liên kết, tôi thấy rằng tôi đang sử dụng một trình ánh xạ để đọc đầu vào và sao chép nó để xuất ra. Vì vậy tôi nghĩ
Reacjs - một bộ giảm tốc trả về tập hợp các kết quả giảm tốc
Tôi có một bộ giảm tốc như thế này: const Chart = CombineReducers({ data,fetchProgress,fetchError,
hadoop - bộ giảm tốc Làm cách nào để tổng hợp đầu ra của tất cả các bộ giảm tốc và tạo ra đầu ra cuối cùng?
Khi có nhiều bộ giảm tốc trong mã Map Giảm, không có bất kỳ hình thức liên lạc nào giữa chúng. Tuy nhiên, khi thực hiện các hoạt động như tổng hợp, tất cả các bộ giảm đều tạo ra một đầu ra cuối cùng duy nhất. Việc tổng hợp diễn ra như thế nào khi không có sự giao tiếp giữa chúng? Có phải bằng cách viết vào bối cảnh?
hadoop - Một truy vấn chạy giảm bản đồ và một truy vấn khác không chạy giảm bản đồ
Tôi có một bảng trong tổ ong mà tôi muốn lấy tất cả dữ liệu. Vấn đề là: select * from tbl; cho tôi kết quả rất khác so với: select count(*) from tbl; thứ hai
javascript - Chạy bộ giảm tốc sau khi trạng thái đã được cập nhật bởi một bộ giảm tốc khác
Giả sử tôi có một ứng dụng có hai bộ giảm tốc - bảng và chân trang được kết hợp bằng cách sử dụng CombineReducers(). Khi tôi bấm vào một nút, hai hành động sẽ được gửi đi - một
javascript - Bộ giảm thứ tự cao hơn được áp dụng cho nhiều bộ giảm
Tôi đang tìm hiểu thêm về redux và tôi gặp một số khó khăn khi xử lý các bộ giảm bậc cao hơn. Tôi đang cố gắng hiểu cách hoạt động của nó bằng một ví dụ phân trang đơn giản. Lưu ý: Đoạn mã sau chỉ là lối tắt cho redux trong ngữ cảnh của Nodejs
Hàm giảm tốc không thể tạo cặp khóa-giá trị trong đối tượng giảm tốc
Tôi gọi nguồn cấp RSS và phân tích nó bằng trình phân tích cú pháp. Tôi nhận được một mảng. Bây giờ tôi muốn tạo một đối tượng ở cuối trông như thế này: { "2019-06-13": { "rates": { "usd":
Truy cập bộ giảm tốc từ bộ giảm tốc khác nhau?
Tôi có một danh sách học sinh và ứng dụng của tôi luôn hiển thị một học sinh vào thời điểm đó, activePupil. Cho đến nay tôi có hai bộ giảm tốc. Một trong số chúng chứa và theo mặc định trả về danh sách tất cả các phần tử con (dưới dạng một mảng): [ { id:
góc cạnh - Chia bộ giảm tốc lớn thành bộ giảm tốc nhỏ hơn
Tôi có một bộ giảm tính năng (bộ giảm lát) được gọi là động vật. Tôi muốn chia những bộ giảm tốc này thành động vật có vú, chim, cá, v.v. Phần này rất dễ vì tôi có thể chỉ cần sử dụng ActionReducerMap. Bây giờ giả sử cho con bú
giảm - Làm cách nào để gọi giảm trên một mảng Kotlin trống?
Một cách giảm đơn giản đối với một mảng trống sẽ đưa ra: Ngoại lệ trong luồng "chính" java.lang.UnsupportedOperationException: Không thể giảm một lần lặp trống. Ngoại lệ tương tự khi liên kết: val a
bản đồ mongoDB/giảm trừ giảm
Tôi có một số tài liệu 25k (4 GB ở dạng json thô) dữ liệu mà tôi muốn thực hiện một số thao tác javascript để giúp người tiêu dùng dữ liệu cuối (R) của tôi dễ truy cập hơn và tôi muốn chuyển một thay đổi cho mỗi tài liệu Thêm bộ sưu tập mới ĐẾN
java - mapreduce.reduce.shuffle.memory.limit.percent, mapreduce.reduce.shuffle.input.buffer.percent và mapreduce.reduce.shuffle.merge.percent
Tôi chỉ muốn xác minh sự hiểu biết của mình về các thông số này và mối quan hệ của chúng, vui lòng cho tôi biết nếu tôi sai. mapreduce.reduce.shuffle.input.buffer.percent cho biết nội dung của toàn bộ giai đoạn xáo trộn được gán cho bộ giảm tốc.
Reacjs - Truyền giá trị trạng thái từ bộ giảm tốc redux sang bộ giảm tốc khác
Tôi muốn chuyển giá trị của trạng thái redux từ bộ giảm tốc sang bộ giảm tốc khác. Trong trường hợp của tôi, tôi muốn chuyển giá trị của các nhóm từ trạng thái trong groupReducer.js sang ScheduleReducer
Còn Redux và việc truy cập các bộ giảm tốc khác nhau trong bộ giảm tốc thì sao?
Vì vậy, tôi có một ứng dụng có nhiều bộ giảm tốc và do đó có nhiều người tạo Hành động được liên kết. Tại một thời điểm, một trong các bộ giảm tốc của tôi đã cập nhật trạng thái (do chỉnh sửa), vì vậy tôi phải đảm bảo rằng các bộ giảm tốc khác nhìn thấy điều này
Reacjs - trạng thái bộ giảm tốc truy cập từ bên trong bộ giảm tốc khác
Tôi có một bộ giảm tốc giúp điều chỉnh lại trạng thái thích hợp khi một hoạt động được lên lịch. Bây giờ tôi đang gọi API thường xuyên để kết quả sẽ kích hoạt hành động này nhiều lần. Vì vậy, điều tôi muốn là nếu trạng thái bộ giảm tốc đã có dữ liệu thì một bộ giảm tốc khác
couchbase - lỗi ( bộ giảm tốc : ) khi cố gắng thực hiện giảm thiểu khác biệt
Khi tôi cố gắng thực hiện giảm DISTINCT từ đây, tôi gặp lỗi. Tôi đã sao chép lỗi này trên thùng mẫu bia, vì vậy lỗi này sẽ dễ tái tạo. Tôi không có tệp trong mapreduce_errors.txt
phân tích cú pháp - Ví dụ Shift-Reduce và Giảm-Giảm và một ví dụ đã được giải quyết?
Trong phân tích cú pháp ưu tiên đơn giản (phân tách) của ngữ pháp sau đây, chúng ta có xung đột dịch chuyển-giảm và giảm-giảm. X là ký hiệu bắt đầu, X'-->$X$ là quy tắc cộng. Ngoài ra, ký hiệu + và thấp hơn là ký hiệu đầu cuối. X'-->$X
java - Map ->Reduce ->Reduce (gọi tuần tự hai bộ giảm tốc) - cách định cấu hình trình điều khiển
Tôi cần viết chương trình Mapreduce gọi liên tục hai bộ giảm tốc. Nghĩa là đầu ra của bộ giảm tốc thứ nhất sẽ là đầu vào của bộ giảm tốc thứ hai. Làm thế nào để tôi đạt được điều này? Những gì tôi đã tìm thấy cho đến nay gợi ý rằng tôi cần thực hiện việc này trong trình điều khiển của mình

Hồ Xil

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

hadoop - Cách phân phối công việc Giảm (giảm nhiều công việc) trong Yarn (Hadoop 2.2.0)

Máy chủ HADOOP (phiên bản 1.2.1) cũ của tôi bao gồm 1 trình theo dõi công việc và 2 trình theo dõi tác vụ. (mỗi lõi 4 lõi, 32G)

Máy chủ HADOOP (phiên bản 2.2.0) mới của tôi bao gồm 1 trình quản lý tài nguyên và 8 trình quản lý nút. (4 lõi mỗi lõi, 32G) (Hệ thống mới tốt hơn nhiều)