cuốn sách gpt4 ai đã làm

hadoop - tăng kích thước dữ liệu trong hbase

In lại Tác giả: Hồ Xil Thời gian cập nhật: 2023-11-01 16:23:58 25 4
mua khóa gpt4 Nike

Tôi đang cố gắng nhập dữ liệu từ MySQL sang HBase bằng sqoop. Có khoảng 9 triệu bản ghi trong bảng MySQL, có kích thước gần 1,2 GB. Hệ số sao chép của cụm hadoop là 3.
Dưới đây là những vấn đề tôi đang gặp phải:

  1. Kích thước dữ liệu sau khi nhập vào hbase lớn hơn 20GB!!! Lý tưởng nhất là phải ở mức gần, chẳng hạn như 5GB (1,2G*3 + một số chi phí chung)

  2. PHIÊN BẢN cho bảng HBase được định nghĩa là 1. Nếu tôi nhập lại cùng một bảng từ MySQL, kích thước tệp trong /hbase/ sẽ tăng (gần như gấp đôi). Mặc dù số hàng trong bảng HBase vẫn giữ nguyên. Điều này có vẻ kỳ lạ vì tôi đang ở HBase, vì vậy kích thước tệp sẽ giữ nguyên, tương tự như giá trị số hàng.

Theo như tôi biết, nếu tôi nhập cùng một nhóm hàng, kích thước tệp trong trường hợp thứ hai sẽ không tăng vì phiên bản tối đa được duy trì cho mỗi mục nhập chỉ được là một.

Bất kỳ trợ giúp sẽ được đánh giá rất cao.

câu trả lời hay nhất

Nó phụ thuộc, theo điều nàyblog

Vì vậy, để tính kích thước bản ghi: Phần cố định cần thiết theo định dạng KeyValue= Độ dài khóa + Độ dài giá trị + Độ dài hàng + Độ dài CF + Dấu thời gian + Giá trị khóa = (4 + 4 + 2 + 1 + 8 + 1) = 20 Byte

Phần biến cần thiết theo định dạng KeyValue = Hàng + Họ cột + Bộ định tính cột + Giá trị

Tổng số byte cần thiết = Phần cố định + Phần biến

Vì vậy, với ví dụ trên, hãy tính kích thước bản ghi: Cột đầu tiên= 20 + (4 + 4 + 10 + 3) = 41 Byte Cột thứ hai = 20 + (4 + 4 + 9 + 3) = 40 Byte Cột thứ ba = 20 + (4 + 4 + 8 + 6) = 42 byte

Tổng kích thước cho hàng1 trong ví dụ trên = 123 Byte

Để lưu trữ 1 tỷ bản ghi như vậy, dung lượng cần thiết = 123 * 1 tỷ =~ 123 GB

Tôi nghĩ các tính toán của bạn hoàn toàn không chính xác, có thể hãy chia sẻ thiết kế kiến ​​trúc của bạn với chúng tôi và chúng tôi có thể tính toán.

Về việc tăng kích thước dữ liệu trong hadoop - hbase, chúng tôi đã tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/18656483/

25 4 0
Chứng chỉ ICP Bắc Kinh số 000000
Hợp tác quảng cáo: 1813099741@qq.com 6ren.com
Xem sitemap của VNExpress