java - 设置带有输入拆分的映射器的Hadoop数量不起作用-6ren

java - 设置带有输入拆分的映射器的Hadoop数量不起作用

In lại 作者：行者123 更新时间：2023-12-02 21:09:38

29

4

我正在尝试使用不同数量的mapper和reducer多次运行hadoop作业。我已经设置了配置:

mapreduce.input.fileinputformat.split.maxsize

mapreduce.input.fileinputformat.split.minsize

mapreduce.job.maps

我的文件大小为1160421275，当我尝试在此代码中使用4个映射器和3个reducer配置它时:

Configuration conf = new Configuration();
FileSystem hdfs = FileSystem.get(conf);
long size = hdfs.getContentSummary(new Path("input/filea").getLength();
size+=hdfs.getContentSummary(new Path("input/fileb").getLength();
conf.set("mapreduce.input.fileinputformat.split.maxsize", String.valueOf((size/4)));
conf.set("mapreduce.input.fileinputformat.split.minsize", String.valueOf((size/4)));
conf.set("mapreduce.job.maps",4);
....
job.setNumReduceTask(3);

size / 4表示290105318。作业的执行给出以下输出:

2016-11-19 12:30:36,426 INFO [main] input.FileInputFormat (FileInputFormat.java:listStatus(287)) - Total input paths to process : 1
2016-11-19 12:30:36,535 INFO [main] input.FileInputFormat (FileInputFormat.java:listStatus(287)) - Total input paths to process : 4
2016-11-19 12:30:36,572 INFO [main] mapreduce.JobSubmitter (JobSubmitter.java:submitJobInternal(396)) - number of splits:7

分割数为7，而不是4，成功作业的输出为:

File System Counters
    FILE: Number of bytes read=18855390277
    FILE: Number of bytes written=14653469965
    FILE: Number of read operations=0
    FILE: Number of large read operations=0
    FILE: Number of write operations=0
Map-Reduce Framework
    Map input records=39184416
    Map output records=36751473
    Map output bytes=787022241
    Map output materialized bytes=860525313
    Input split bytes=1801
    Combine input records=0
    Combine output records=0
    Reduce input groups=25064998
    Reduce shuffle bytes=860525313
    Reduce input records=36751473
    Reduce output records=1953960
    Spilled Records=110254419
    Shuffled Maps =21
    Failed Shuffles=0
    Merged Map outputs=21
    GC time elapsed (ms)=1124
    CPU time spent (ms)=0
    Physical memory (bytes) snapshot=0
    Virtual memory (bytes) snapshot=0
    Total committed heap usage (bytes)=6126829568
Shuffle Errors
    BAD_ID=0
    CONNECTION=0
    IO_ERROR=0
    WRONG_LENGTH=0
    WRONG_MAP=0
    WRONG_REDUCE=0
File Input Format Counters 
    Bytes Read=0
File Output Format Counters 
    Bytes Written=77643084

该 map 显示它处理了21张混洗的 map 。我希望它只处理4个映射器。对于reducer，它给出的文件总数正确为3，而我的mapper拆分大小设置是否错误？

1 Câu trả lời

我相信您正在使用TextInputFormat。

如果您有多个文件，则每个文件将至少产生一个映射器。如果文件大小(不是累积大小，而是单个文件大小)大于块大小(已通过设置min和max进行了调整)，则会再次生成更多的映射器。

尝试使用CombineTextInputFormat，这将帮助您实现所需的功能，但可能仍然不完全是4。

查看要用来确定要生成多少个映射器的InputFormat的逻辑。

关于java - 设置带有输入拆分的映射器的Hadoop数量不起作用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40689601/

29

4

0

Bài viết được đề xuất: docker - 如何在Docker Compose中为容器和图像命名？

Bài viết được đề xuất: docker - 我们可以在多个计算机(主机)上运行单个容器吗？

Bài viết được đề xuất: docker - 尝试将图像转换为容器时，为什么会出现 'docker: invalid reference format'？

Bài viết được đề xuất: eclipse - 无法从Sparksql连接Hive Metastore

C# DLL Injector, VB.Net DLL Injector
Trước đây tôi đã tạo một trình tiêm dll để dễ dàng nhưng tôi có Windows 7 và tôi đã làm điều đó bằng C# và C++ và nó hoạt động rất tốt! Nhưng bây giờ khi tôi thử cùng một mã trong Windows 8 thì có vẻ như nó không tiêm đúng cách.
Polymer 1.0 Cố gắng tạo ra một bộ chia tương tự như bộ chia lõi, có thể được gọi là bộ chia sắt
Tôi đang cố gắng tạo một thành phần có tên là core-splitter, thành phần này đã bị loại bỏ trong phiên bản 1.0 vì nó đóng vai trò quan trọng trong dự án của chúng tôi. Nếu bạn không biết bộ chia lõi có chức năng gì, tôi có thể cung cấp mô tả ngắn gọn.
Làm thế nào để dừng lò phản ứng sau khi chạy nhiều spider trong cùng một quy trình trong scrapy?
Tôi có một số loài nhện khác nhau và muốn chạy tất cả chúng cùng một lúc. Dựa trên điều này và điều này, tôi có thể chạy nhiều con nhện trong cùng một quy trình. Tuy nhiên, tôi không biết cách thiết kế hệ thống tín hiệu để dừng lò phản ứng khi tất cả nhện đã hoàn thành. Tôi đã thử: cra
twisted - Dừng lò phản ứng xoắn trong một số điều kiện
Có cách nào để dừng lò phản ứng xoắn khi đạt đến một điều kiện nhất định không? Ví dụ, nếu một biến được đặt ở một giá trị nhất định, thì lò phản ứng có nên dừng lại không? Câu trả lời hay nhất Lý tưởng nhất là bạn không nên đặt biến thành một giá trị và dừng lò phản ứng, mà thay vào đó hãy gọi
Làm thế nào để tôi xác định injector cho ứng dụng của tôi
https://code.angularjs.org/1.0.0rc9/angular-1.0.0rc9.js Liên kết trên định nghĩa tệp js bên ngoài, tôi không biết cách đưa Angular-1.0.0rc9.js (trong
Tôi có thể lấy kim phun cho ứng dụng của mình bằng cách nào?
Tôi đang cố chạy một hàm và đưa một dịch vụ vào đó. Tôi nghĩ điều này có thể dễ dàng thực hiện bằng cách sử dụng $injector. Vì vậy, tôi đã thử ví dụ sau (đơn giản hóa): angular.injector().invoke([ "$q
gwt - khởi tạo một injector với nhiều mô-đun trừu tượng
Trong Google Guice, tôi có thể sử dụng hàm createInjector để tạo nhiều injector dựa trên mô-đun. Bởi vì tôi sử dụng GWT.create để khởi tạo inject trong GoogleGin
Trình liên kết cấu hình tùy chỉnh cho các thuộc tính
Tôi đang sử dụng liên kết cấu hình trong giải pháp ASP.NET Core 1.1 của mình. Về cơ bản, tôi có một số mã đơn giản để liên kết trong phần "ConfigureServices Startup" trông như thế này:
Trình liên kết khởi tạo Spring
Tôi đang gặp một số sự cố khi thiết lập initBinder trong Spring MVC. Tôi có một ModelAttribute có một trường đôi khi được hiển thị. lớp công khai Mô hình { riêng tư
jQuery post form data và MVC model binder
Tôi đang cố gắng đăng một mô hình xem knockoutjs thông qua jquery post var $form = $('#barcodeTemplate form'); var data = ko.toJS(vm
Trình liên kết mô hình tùy chỉnh cho mô hình phức tạp với bộ sưu tập các đối tượng đa hình
Làm thế nào để viết trình liên kết mô hình tùy chỉnh cho một mô hình phức tạp chứa một tập hợp các đối tượng đa hình? Tôi có cấu trúc mô hình tiếp theo: public class CustomAttributeValueViewModel { publi
Đăng ký Simple Injector cho các generic mở với nhiều hàm tạo
Xin chào, tôi đang cố gắng triển khai một phương thức mở rộng mà tôi tìm thấy trong bài viết này cho Simple Injector vì nó không hỗ trợ đăng ký các hàm tạo cụ thể ngay lập tức. Theo bài viết này, tôi cần sử dụng một đại biểu giả
Đăng ký Simple Injector của một loại động
Xin chào, tôi muốn tự động đăng ký các phụ thuộc của mình. Những gì tôi có bây giờ là: public interface IRepository trong đó T : class public interface IFolderReposi
angularjs injector với dịch vụ định vị
Tôi đang sử dụng Jasmine để kiểm tra một số mã Angular.js. Để thực hiện điều này, tôi cần một Angular injector: var injector = angular.injector(['ng'
Trình định hình lại mã C
Tôi đang sử dụng trình tạo mã Matlab. Không thể đưa vào hướng dẫn về phong cách mã hóa. Đó là lý do tại sao tôi đang tìm kiếm một công cụ để "định hình lại", đổi tên và định dạng lại mã được tạo theo: hàm, quy ước biểu ngữ, quy ước biểu ngữ, quy ước đặt tên, v.v.
Trình liên kết đối số mẫu tùy chỉnh để sử dụng với lớp mẫu mẫu
Câu hỏi này đã có câu trả lời ở đây: Tôi phải đặt từ khóa "template" và "typename" ở đâu và tại sao? (8 câu trả lời) Đã đóng 8
Trình tiêm dll nguồn mở
Tôi đã phát triển một công cụ có thể thay đổi giao diện của một số chương trình. Để làm điều này tôi cần phải đưa một dll vào một tiến trình nào đó. Bây giờ tôi về cơ bản sử dụng cách tiếp cận này. Vấn đề thường là mọi người không thể tiêm dll vì họ
Có trình liên kết dữ liệu nào sử dụng các khía cạnh và chú thích không?
Tôi muốn viết một ứng dụng Java sử dụng swing, spring và hibernate. Tôi muốn sử dụng một trình liên kết dữ liệu để điền vào một giao diện người dùng đồ họa với các giá trị của một bean và tôi cũng muốn nó phản ánh giao diện người dùng đồ họa
Làm thế nào để dừng lò phản ứng khi cả hai con nhện đều hoàn thành python angularjs
Tôi có đoạn mã này và khi hai con nhện hoàn thành thì chương trình vẫn chạy. #!C:\Python27\python.exe từ twisted.internet nhập lò phản ứng từ scrapy.cr
Làm thế nào tôi có thể hạn chế các thiết bị Autowiring mà tôi không sử dụng "của riêng"
Điểm chính là khung thử nghiệm Spring Batch (v2) có JobLauncherTestUtils.setJob với chú thích @Autowired. Bộ kiểm tra của chúng tôi có nhiều nhà cung cấp lớp công việc. Bởi vì lớp này không

trang đầu

đã học

Trí tuệ nhân tạo 6Ren

Trung tâm mua sắm

java - 设置带有输入拆分的映射器的Hadoop数量不起作用