Hadoop với các phím tổng hợp khó

Khó khăn của Hadoop với các khóa tổng hợp

In lại Tác giả: Hồ Xil Thời gian cập nhật: 2023-11-01 15:39:42

Tôi đang sử dụng Hadoop để phân tích dữ liệu GSOD (ftp://ftp.ncdc.noaa.gov/pub/data/gsod/). Tôi chọn 5 năm để thực hiện thí nghiệm của mình (2005 - 2009). Tôi đã định cấu hình một cụm nhỏ và thực hiện chương trình MapReduce đơn giản để truy xuất các bản ghi nhiệt độ cao nhất trong một năm.

Bây giờ tôi phải tạo một chương trình MR mới để tính tất cả các hiện tượng đã xảy ra trong nhiều năm ở mỗi địa điểm.

File tôi phải phân tích có cấu trúc như sau:

STN---...FRSHTO
722115 110001
722115 011001
722110 111000
722110 001000
722000 001000

Cột STN thể hiện mã địa điểm, FRSHTT thể hiện các hiện tượng: F - sương mù, R - mưa hoặc mưa phùn, S - tuyết hoặc viên băng, H - mưa đá, T - sấm sét, O - lốc xoáy hoặc đám mây hình phễu.

Giá trị 1 có nghĩa là hiện tượng đó xảy ra vào ngày đó; giá trị 0 có nghĩa là hiện tượng đó không xảy ra.

Tôi cần tìm kết quả như:

722115: F = 1, R = 2, S = 1, O = 2
722110: F = 1, R = 1, S = 2
722000: S = 1

Tôi có thể chạy chương trình MR, nhưng kết quả sai, cho tôi kết quả như sau:

722115 F, 1
722115 R, 1
722115 R, 1
722115 S, 1
722115 Ô, 1
722115 Ô, 1
722110 F, 1
722110 R, 1
722110 S, 1
722110 S, 1
722000 S, 1

Tôi đã sử dụng các mã này:

người lập bản đồ.java

lớp công khai Mapper mở rộng org.apache.hadoop.mapreduce.Mapper {
@Ghi đè
bản đồ khoảng trống được bảo vệ (khóa LongWritable, giá trị văn bản, bối cảnh org.apache.hadoop.mapreduce.Mapper.Context) ném IOException, InterruptedException {
    Dòng chuỗi = value.toString();
    // Mỗi file đều bắt đầu bằng một dòng mô tả trường nên tôi bỏ qua dòng này
    if (!line.startsWith("STN---")) {
        // Trường đầu tiên của dòng có nghĩa là mã trạm nơi dữ liệu được thu thập
        Trạm chuỗi = line.substring(0, 6);
        Chuỗi sương mù = (line.substring(132, 133));
        Chuỗi rainOrDrizzle = (line.substring(133, 134));
        Chuỗi snowOrIcePellets = (line.substring(134, 135));
        Chuỗi mưa đá = (line.substring(135, 136));
        Chuỗi sấm = (line.substring(136, 137));
        Chuỗi lốc xoáyOrFunnelCloud = (line.substring(137, 138));

        if (fog.equals("1"))
            context.write(Station mớiPhenomenun(station,"F"), IntWritable mới(1));
        if (rainOrDrizzle.equals("1"))
            context.write(Station mớiPhenomenun(station,"R"), IntWritable(1) mới);
        if (snowOrIcePellets.equals("1"))
            context.write(Station mớiPhenomenun(station,"S"), IntWritable mới(1));
        if (mưa đá.equals("1"))
            context.write(Station mớiPhenomenun(station,"H"), IntWritable(1) mới);
        if (thunder.equals("1"))
            context.write(Station mớiPhenomenun(station,"T"), IntWritable(1) mới);
        if (tornadoOrFunnelCloud.equals("1"))
            context.write(Station mớiPhenomenun(station,"O"), IntWritable mới(1));
    }
}
}

Giảm tốc.java

lớp công khai Trình giảm tốc mở rộng org.apache.hadoop.mapreduce.Reducer {

protected void less(StationPhenomenun key, Iterable value, org.apache.hadoop.mapreduce.Reducer.Context context) ném IOException, InterruptedException {
số int = 0;        
    for (Giá trị IntWritable: giá trị) {
        count++;
    }

    Trạm chuỗi = key.getStation().toString();
    Lần xuất hiện chuỗi = key.getPhenomenun().toString();

    StationHiện tượng textPair = new StationPhenomenun(trạm, lần xuất hiện);
    context.write(textPair, new IntWritable(count));
}
}

StationPhenomenum.java

lớp công khai StationPhenomenun triển khai WritableComparable {
trạm dây riêng;
hiện tượng chuỗi riêng tư;
public StationPhenomenun(Trạm chuỗi, Hiện tượng chuỗi) {
    this.station = trạm;
    this.phenomenun = hiện tượng;
}
trạm công cộngPhenomenun() {
}
Chuỗi công khai getStation() {
    trạm trở về;
}
Chuỗi công khai getPhenomenun() {
    hiện tượng quay trở lại;
}
@Ghi đè
public void readFields(DataInput in) ném IOException {
    trạm = in.readUTF();
    hiện tượng = in.readUTF();
}
@Ghi đè
public void write(DataOutput out) ném IOException {
    out.writeUTF(trạm);
    out.writeUTF(hiện tượng);
}
@Ghi đè
public int so sánhTo(StationPhenomenun t) {
    int cmp = this.station.compareTo(t.station);
    nếu (cmp != 0) {
        trả lại cmp;
    }
    trả lại this.phenomenun.compareTo(t.phenomenun);
}    
@Ghi đè
boolean công khai bằng(Object obj) {
    nếu (obj == null) {
        trả về sai;
    }
    if (getClass() != obj.getClass()) {
        trả về sai;
    }
    Final StationPhenomenun other = (StationPhenomenun) obj;
    if (this.station != other.station && (this.station == null || !this.station.equals(other.station))) {
        trả về sai;
    }
    if (this.phenomenun != other.phenomenun && (this.phenomenun == null || !this.phenomenun.equals(other.phenomenun))) {
        trả về sai;
    }
    trả về đúng sự thật;
}
@Ghi đè
public int hashCode() {
    trả về this.station.hashCode() * 163 + this.phenomenun.hashCode();
}
}

NcdcJob.java

lớp công khai NcdcJob {
public static void main(String[] args) throws Exception {
    Cấu hình conf = Cấu hình mới();
    Công việc công việc = Công việc mới (conf);
    job.setJarByClass(NcdcJob.class);
    FileInputFormat.addInputPath(job, new Path("/user/hadoop/input"));
    FileOutputFormat.setOutputPath(job, new Path("/user/hadoop/station"));
    job.setMapperClass(Mapper.class);
    job.setReducerClass(Reducer.class);
    job.setMapOutputKeyClass(StationPhenomenun.class);
    job.setMapOutputValueClass(IntWritable.class);
    job.setOutputKeyClass(StationPhenomenun.class);
    job.setOutputValueClass(IntWritable.class);
    System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}

Có ai đã làm điều gì tương tự chưa?

Tái bút: Tôi đã thử giải pháp này ( Hadoop - khóa tổng hợp ) nhưng không hiệu quả với tôi.

câu trả lời hay nhất

Chỉ cần kiểm tra xem 2 lớp sau có khớp với cách triển khai tùy chỉnh của bạn hay không.

 job.setMapperClass(Mapper.class);
 job.setReducerClass(Reducer.class);

Tôi đã có thể nhận được kết quả mong muốn với những thay đổi sau

bản đồ void được bảo vệ (Khóa LongWritable, Giá trị văn bản, Ngữ cảnh) ném IOException, InterruptedException {

protected void less(StationPhenomenun key, Iterable value, Ngữ cảnh ngữ cảnh) ném IOException, InterruptedException {

Đồng thời đổi tên lớp thành MyMapper Và MyReducer

722115,1,1,0,0,0,1
722115,0,1,1,0,0,1
722110,1,1,1,0,0,0
722110,0,0,1,0,0,0
722000,0,0,1,0,0,0

Đối với bộ đầu vào này, tôi có thể nhận được kết quả sau

TrạmHiện tượng [trạm=722000, hiện tượng=S] 1
TrạmHiện tượng [trạm=722110, hiện tượng=F] 1
TrạmHiện tượng [trạm=722110, hiện tượng=R] 1
TrạmHiện tượng [trạm=722110, hiện tượng=S] 2
TrạmHiện tượng [trạm=722115, hiện tượng=F] 1
TrạmHiện tượng [trạm=722115, hiện tượng=O] 2
TrạmHiện tượng [trạm=722115, hiện tượng=R] 2
TrạmHiện tượng [trạm=722115, hiện tượng=S] 1

Cách tính cũng như vậy, bạn chỉ cần tùy chỉnh cách hiển thị đầu ra là được.

Về những khó khăn của Hadoop với khóa tổng hợp, chúng tôi đã tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/18381684/

Bài viết khuyến nghị: Chức năng SURF OpenCV không được triển khai

Bài viết khuyến nghị: hadoop - Hive không thành công với java.io.IOException (Phân chia vượt quá vị trí khối tối đa.... kích thước phân chia: 45 maxsize: 10)

Bài viết khuyến nghị: Có nên sử dụng typeid đối với hành vi không xác định của các loại được khai báo chuyển tiếp không?

Bài viết khuyến nghị: Cách chuyển tham số tới Hadoop ToolRunner (hoặc bất kỳ Hành động MapReduce nào) từ quy trình làm việc của Oozie

java - float (có 4 byte bộ nhớ) có thể chứa các giá trị dài (có 8 byte bộ nhớ) trong Java. Làm sao?
Đây là đoạn mã. Vui lòng cho tôi biết thuật toán lưu trữ dữ liệu lớn trong bộ nhớ nhỏ này là gì. public static void main(String[] args) { long longValue = 21474836
php - Làm cách nào để đọc tiêu đề loại nội dung và chuyển đổi nó thành utf-8 khi Gmail IMAP có utf8 và Outlook có ISO-8859-7?
Vì vậy tôi sử dụng imap để nhận email từ gmail và outlook. Gmail được mã hóa như thế này =?UTF-8?B?UmU6IM69zq3OvyDOtc68zrHOuc67IG5ldyBlbWFpb
Quy trình lập kế hoạch với 2 tham số
Tôi đã học mã C từ lâu và muốn thử điều gì đó mới mẻ và khác biệt với Đề án. Tôi đang cố gắng tạo một thủ tục lấy hai đối số và trả về giá trị lớn hơn trong hai đối số đó, như (define (larger xy) (if (> x
azure - Mục đích của kho Dịch vụ khôi phục dự phòng địa lý có/không có khả năng khôi phục giữa các khu vực là gì?
Có hai tùy chọn cấu hình sao lưu cho kho Azure Recovery Services - LRS so với GRS Đây là câu hỏi về kho Azure Recovery Services. Làm cách nào để bạn xử lý kho lưu trữ Dịch vụ khôi phục có bật tính năng dự phòng địa lý khi khu vực chứa nó bị lỗi? Nếu dịch vụ khôi phục không được kích hoạt
ngủ đông - Thực thể có thể nhúng với thuộc tính @OneToMany
Giả sử tôi có thực thể sau: @Entity public class A { @Id @GeneratedValue Private Long id; @Embedded Private;
Điều kiện với toán tử "in" và danh sách trống
Tôi có câu hỏi tiếp theo. Tôi có tiêu chí tiếp theo: Criteria.add(Restrictions.in("entity.otherEntity", getOtherEntitiesList()));
Java - Phương thức chính với các câu lệnh If in sai thứ tự
Nếu đây là bản sao của bất kỳ loại nào thì tôi sẽ đăng ký trước, nhưng tôi không thể tìm thấy bất kỳ điều gì giải quyết được vấn đề cụ thể của mình. Đây là chương trình của tôi: import java.util.Random; public class CarnivalGame{
Đường dẫn tổng hợp Mongodb với $setIntersection
Tôi hiện đang sử dụng golang để tạo một đường dẫn tổng hợp nơi tôi truy vấn các tài liệu bằng toán tử "$ hoặc". Kết quả là một loạt tài liệu chưa được nhóm cần được nhóm lại để tôi có thể chuyển sang giai đoạn tiếp theo là tìm điểm giao nhau giữa hai tập dữ liệu. Sau đó sử dụng nó để làm điều đó trong một bộ sưu tập riêng
Biểu thức chính quy với điều kiện Or?
Có thể tạo điều kiện OR trong biểu thức chính quy. Tôi đang cố gắng tìm kết quả khớp cho danh sách tên tệp chứa mẫu như vậy, trường hợp đầu tiên xxxxx-hello.file hoặc trường hợp hai xxxx-hello-unasigned.file
c - Đầu ra kim cương với vòng lặp `for`
Chương trình này chỉ đơn giản tạo ra hình dạng của một viên kim cương khi người dùng nhập số hàng, do đó, nó có 6 vòng for; 3 vòng để tạo hình tam giác đầu tiên, 3 vòng để tạo hình tam giác còn lại và với 2 hình tam giác và 6 vòng này, chúng tôi có một hình thoi và đây là toàn bộ chương trình
c# - Giá trị chuỗi truy vấn bằng "&"
Tôi có một chuỗi truy vấn như thế này www.google.com?Department=Education & Finance&Department=Health Tôi có các thẻ li này và chuỗi truy vấn của chúng giống như thế này
Đơn vị kiểm tra hàm tạo tĩnh với/các giá trị cấu hình khác nhau
Tôi có một lớp với hàm tạo tĩnh mà tôi sử dụng để đọc các giá trị app.config. Cách kiểm tra đơn vị một lớp có các giá trị cấu hình khác nhau. Tôi đang nghĩ đến việc chạy từng thử nghiệm trong một miền ứng dụng khác để tôi có thể thực hiện một hàm tạo tĩnh cho mỗi thử nghiệm - nhưng tôi
Vùng chứa nhiều phím có chức năng tìm kiếm HOẶC
Tôi đang tìm một vùng chứa có thể chứa nhiều khóa, nếu tôi nhập giá trị dành riêng (ví dụ: 0) cho một trong các giá trị khóa, nó sẽ được coi là tìm kiếm OR. bản đồ, int > myContainer; myContainer.insert(make_
mysql - Thiết kế bảng quan hệ với một đối tượng/nhiều loại
Tôi đang tạo cơ sở dữ liệu cho một ứng dụng web và đang tìm kiếm một số lời khuyên về cách lập mô hình một thực thể duy nhất có thể có nhiều loại, mỗi loại có các thuộc tính khác nhau. Ví dụ: giả sử tôi muốn tạo một mô hình quan hệ cho đối tượng "nguồn dữ liệu". Tất cả các nguồn dữ liệu sẽ có một số thuộc tính chung
Cú pháp thủ tục lưu trữ với điều kiện IN
(1) => TẠO BẢNG T1(id BIGSERIAL PRIMARY KEY, tên TEXT);
Tham chiếu cột mơ hồ với bí danh AS
Tôi không chắc chắn cách giải quyết các tham chiếu cột không rõ ràng khi sử dụng bí danh. Giả sử có hai bảng a và b, cả hai đều có cột tên. Nếu tôi nối hai bảng này và thêm bí danh vào kết quả, tôi không biết cách tham chiếu cột tên cho cả hai bảng. Tôi đã thử một số biến thể,
mysql - Thứ tự tùy chỉnh với điều kiện IN
Truy vấn của tôi là: select * from table trong đó id IN (1,5,4,3,2) Điều tôi muốn chính xác là cùng một thứ tự, không phải từ 1...5 mà từ 1,5,4, 3,2. Làm thế nào tôi có thể làm điều này? hầu hết
c# - Tên cột có ký hiệu @
Tôi đang sử dụng mã C# để thực thi truy vấn MySQL được tạo động. Ném ngoại lệ: TẠO TABLE kết xuất ("@employee_OID" VARCHAR(50)); "{"Bạn có một lỗi
java - vấn đề định dạng ngày với dấu +
Tôi có ngày 2016-03-30T23:59:59.000000+0000. Tôi có thể biết định dạng của nó là gì không? Bởi vì nếu tôi sử dụng yyyy-MM-dd'T'HH:mm:ss.SSS thì nó sẽ ném ra ngoại lệ Sim trả lời hay nhất
MYSQL - lỗi cú pháp trong truy vấn xóa với mệnh đề trong
Tôi có một lược đồ mẫu và Fiddle SQL của nó như sau: http://sqlfiddle.com/#!2/6816b/2 Fiddle này chỉ đơn giản truy vấn cơ sở dữ liệu mẫu dựa trên các điều kiện trong mệnh đề Where như sau:

Hồ Xil

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

Khó khăn của Hadoop với các khóa tổng hợp