18. Bắt đầu với Hadoop: HBase-Bắt đầu-6ren

18. Bắt đầu với Hadoop: Bắt đầu với HBase

In lại Tác giả: Đường đến ông chủ Thời gian cập nhật: 2024-01-07 13:08:23

HBase - Bắt đầu

Giới thiệu về HBase

HBase là mộtPhân tán, định hướng theo cộtCơ sở dữ liệu nguồn mở, công nghệ này xuất phát từ bài báo "Bigtable: A Structured Data Platform" của Google do Fay Chang viếtHệ thống lưu trữ phân tán". Giống như Bigtable tận dụng khả năng lưu trữ dữ liệu phân tán do Google File System cung cấp, HBase cung cấp các khả năng giống như Bigtable trên Hadoop. HBase là một dự án con của dự án Hadoop của Apache. HBase khác với cơ sở dữ liệu quan hệ thông thường,Nó là một cơ sở dữ liệu phù hợp để lưu trữ dữ liệu phi cấu trúc. Một điểm khác biệt nữa là HBase dựa trên cột chứ không phải dựa trên hàng.

Các thành phần kiến trúc của HBase

Khách hàng

Client có trách nhiệm gửi yêu cầu tới cơ sở dữ liệu
Có hai cách chính để kết nối khách hàng:shell hbase và giống JDBC
Các yêu cầu được gửi đi cũng là các thao tác cơ sở dữ liệu cơ bản DDL, DML, DQL
Máy khách cũng duy trì một số bộ đệm để tăng tốc độ truy cập hbase, chẳng hạn như thông tin vị trí Khu vực.

Người giữ vườn thú

Đảm bảo phân cụm bất cứ lúc nàoChỉ có một chủ nhân duy nhất
Lưu trữ tất cảMục nhập địa chỉ của khu vực và tất cả thông tin siêu dữ liệu
Theo dõi trạng thái của Máy chủ khu vực trong thời gian thực và báo cáo thông tin trực tuyến và ngoại tuyến của nó cho Master
Lưu trữ lược đồ của Hbase, bao gồm các bảng và họ cột

HMaster

Nút chính của HBase phân bổ Vùng cho Máy chủ vùng và chịu trách nhiệm cân bằng tải.
Quản lý hoạt động DDL của người dùng, siêu dữ liệu bảng được lưu trữ trong Zookeeper và dữ liệu bảng được lưu trữ trên HRegionServer
Khi HRegionServer ngoại tuyến, HMaster sẽ chuyển vùng trên HRegionServer sang các HRegionServer khác.

Máy chủ HRKhu vực

Người quản lý dữ liệu cụ thể của HBase, duy trì các vùng được Master chỉ định và xử lý các yêu cầu IO cho các vùng này.
Duy trì liên lạc theo thời gian thực với Master và báo cáo thông tin nút hiện tại
Khi nhận được lệnh từ chủ để tạo bảng, hãy phân bổ một vùng tương ứng với bảng.
Máy chủ Vùng có trách nhiệm phân chia các vùng trở nên quá lớn trong quá trình hoạt động.
Khi client gửi các thao tác DML và DQL, HRegionServer có nhiệm vụ kết nối với client
Máy chủ Khu vực hiện tại tắt đột ngột và khu vực của nó sẽ được các Máy chủ Khu vực khác tiếp quản.

Khu vực HR

HRegion là đơn vị lưu trữ phân tán nhỏ nhất trong HBase và có thể được lưu trữ trong các Máy chủ HRegion khác nhau.
HBase tự động chia bảng thành nhiều vùng theo chiều ngang, mỗi vùng lưu một khoảng thời gian nhất định dữ liệu liên tục trong bảng.
Lúc đầu, một bảng chỉ có một vùng. Khi vùng tăng lên đến một mức độ nhất định, sự phân chia bằng nhau sẽ xảy ra.

Cửa hàng

HRegion là thành phần cơ bản để thu thập và phân phối bảng. Nó bao gồm một hoặc nhiều Cửa hàng. Mỗi cửa hàng lưu trữ một họ cột.
Cửa hàng bao gồm một memstore và không có hoặc nhiều StoreFiles.
HFile là định dạng lưu trữ của các tệp HBase trong HDFS. Nó chứa các chỉ mục đa cấp và không phải tải toàn bộ tệp cho một phần dữ liệu.

Hlog

Viết nhật ký trước khi làm bất cứ điều gì. Hlog thực sự là một tệp Trình tự Hadoop thông thường.
Hlog được lưu trữ trực tiếp trên HDFS và HRegionServer chỉ có một tệp nhật ký.
Khi memstore đạt đến ngưỡng và bắt đầu ghi tệp nhật ký, một điểm kiểm tra sẽ được đặt trong tệp nhật ký.
MasterProcWAL: HMaster ghi lại các hoạt động quản lý bản ghi, WAL ghi lại mọi thay đổi dữ liệu HBase

Mô hình dữ liệu HBase

**Loại dữ liệu:** Không có loại dữ liệu trong HBase, loại dữ liệu duy nhất là byte

**NameSpace:** Namespace là một khái niệm trong cơ sở dữ liệu quan hệ, thực chất là một nhóm bảng logic. HBase có hai không gian tên đặc biệt, mặc định và hbase.

Bàn:

Phím hàng	Dấu thời gian	Họ cột1	Họ cột2	Họ cột3
1	t6		CF2:q1=val1	CF3:q3=val3
2	t3	CF1:q2=val3
	t2		CF2:q3=val2

Phím hàng

Mã định danh duy nhất của một hàng là khóa chính được sử dụng để truy xuất bản ghi.
Khóa hàng có thể là bất kỳ chuỗi nào, tối đa 64kb, được lưu dưới dạng mảng byte
Bộ nhớ được sắp xếp theo thứ tự từ điển khóa hàng (thứ tự byte). Tại thời điểm thiết kế, các hàng được đọc cùng nhau thường được nhóm lại với nhau.

Họ cột

Mỗi hàng có cùng một họ cột. Họ cột chứa nhiều cột và mỗi giá trị cột có một số thuộc tính lưu trữ có thể định cấu hình.
Ví dụ: lưu trữ, loại nén, số phiên bản lưu trữ có thể được sử dụng.
Đặt các thuộc tính chức năng tương tự trong cùng một họ cột và các cột trong cùng một họ cột sẽ được lưu trữ trong cùng một Cửa hàng.
Họ cột thường được khai báo khi tạo bảng và nói chung không nên có nhiều hơn ba.
Một họ cột bao gồm nhiều cột và một bảng bao gồm nhiều họ cột.

Vòng loại cột

Vòng loại của họ cột có thể được hiểu là một mã định danh duy nhất, nhưng mã định danh cột có thể thay đổi nên mỗi hàng có thể có một mã định danh cột khác nhau.
Cách sử dụng phải là, họ cột: cột
Các cột có thể được thêm hoặc xóa động tùy theo nhu cầu và các cột dữ liệu ở các hàng khác nhau của cùng một bảng có thể khác nhau.

Tế bào

Ô bao gồm khóa hàng, họ cột, vòng loại cột và phiên bản
Dữ liệu trong ô không có loại và tất cả được lưu trữ theo byte.

Dấu thời gian

Mỗi ô trong HBase lưu trữ các phiên bản khác nhau của cùng một dữ liệu.
Các phiên bản được lập chỉ mục theo dấu thời gian:
Loại dấu thời gian là số nguyên 64 bit
Dấu thời gian chính xác đến mili giây. Nếu bạn không tự đặt, dấu thời gian sẽ mặc định theo thời gian hệ thống hiện tại.
Nếu ứng dụng muốn tránh xung đột phiên bản, nó cần tạo dấu thời gian duy nhất của riêng mình.
Các phiên bản dữ liệu khác nhau trong mỗi ô được sắp xếp theo thứ tự thời gian đảo ngược, phiên bản mới nhất sẽ được xếp đầu tiên.
Nếu bạn không chỉ định dấu thời gian khi truy vấn, dữ liệu mới nhất sẽ được hiển thị theo mặc định.
Để tránh có quá nhiều phiên bản dữ liệu khó quản lý, phương pháp lưu n phiên bản cuối cùng hoặc lưu phiên bản trong khoảng thời gian cuối cùng được áp dụng.

Cài đặt HBase

Tải lên và giải nén gói cài đặt

gói nén scp hbase user@machineIP:/upload/directory tar -xzvf gói nén hbase -C /unzip/thư mục

Sửa đổi tập tin cấu hình

Sửa đổi hbase-env.sh:

cd hbase-2.4.13/conf/ vim hbase-env.sh xuất JAVA_HOME=/đường dẫn cài đặt JDK xuất HBASE_MANAGES_ZK=false

Sửa đổi hbase-site.xml:

vim hbase-site.xml

 hbase.rootdir hdfs://192.168.19.5:8020/hbase   < property> hbase.cluster.distributed true    hbase.zookeeper.quorum 192.168.19.5:2181    hbase. Zookeeper.property.dataDir /home/sjj/install/apache-zookeeper-3.7.1-bin/data   hbase.unsafe.stream.capability.enforce false

Cấu hình các biến môi trường

vim /etc/profile # Định cấu hình môi trường HBase xuất HBASE_HOME=/home/sjj/install/hbase-2.4.13 xuất PATH=$PATH:${HBASE_HOME}/bin:${HBASE_HOME}/sbin source /etc/profile

Sao chép gói jar vào lib

cd hbase-2.4.13/lib/client-facing-thirdparty cp htrace-core4-4.2.0-incubating.jar ../lib

Sửa đổi máy chủ khu vực

cd hbase-2.4.13/conf vim máy chủ vùng máy nút của bạn

Phân phối các gói HBase

scp -r gói hbase username@machineIP:/distribution/destination

Sau khi phân phối, hãy nhớ đặt biến môi trường cho máy phân phối.

Bắt đầu HBase

# Lưu ý rằng trước tiên bạn cần khởi động Zookeeper start-dfs.sh start-hbase.sh hbase shell

Bài viết khuyến nghị: 02. Bắt đầu với Hadoop: Định cấu hình Java cho ba máy CentOS7

Bài viết khuyến nghị: 19. Bắt đầu với Hadoop: Hoạt động của HBase-Shell

Bài viết khuyến nghị: 17. Bắt đầu với Hadoop: Hive-HQL

Bài viết khuyến nghị: 16. Bắt đầu với Hadoop: Bắt đầu tổ ong

hadoop - Có hay không có hadoop
Chúng tôi có dữ liệu (chưa được phân bổ tại thời điểm này) để chuyển đổi/tổng hợp/xoay vòng sang wazoo. Tôi đã xem trên www và tất cả các câu trả lời tôi hỏi đều chỉ ra rằng hadoop có khả năng mở rộng, chạy rẻ (không cần máy chủ SQL và giấy phép), nhanh (nếu bạn có đủ dữ liệu)
hadoop - "Hadoop" - Định nghĩa Hadoop là gì?
Đó là điều hiển nhiên và tất cả chúng tôi đều đồng ý rằng chúng tôi có thể gọi HDFS + YARN + MapReduce Hadoop. Nhưng còn những sự kết hợp khác nhau và các sản phẩm khác trong hệ sinh thái Hadoop thì sao? Ví dụ: HDFS + YARN + S
hadoop - es-hadoop (ElasticSearch-Hadoop) hoạt động như thế nào ở Hadoop?
Nếu es-hadoop chỉ là một trình kết nối Hadoop với HDFS, thì nó hỗ trợ phân tích Hadoop như thế nào? Câu trả lời hay nhất Tôi cho rằng bạn đang đề cập đến dự án này. Trong trường hợp này, dự án ES Hadoop.
hadoop - JoGL trong Hadoop? Hadoop cho đồ họa?
Sau khi đọc bài viết này và bài báo này, tôi quyết định rằng tôi muốn triển khai thiết lập kết xuất khối lượng phân tán trên MapReduce cho các tập dữ liệu lớn khi làm luận văn đại học của mình. Hadoop có phải là lựa chọn hợp lý không? Java sẽ không loại bỏ một số lợi ích về hiệu suất hoặc làm cho nó tương thích với C
hadoop - Gửi công việc Hadoop thông qua ứng dụng khách công việc Hadoop trên dòng lệnh
Tôi đang cố gắng tìm thông tin về cách gửi công việc hadoop qua dòng lệnh. Tôi biết lệnh - hadoop jar jar-file main class input-output và có một lệnh khác, tôi đang cố gắng tìm thông tin về nó nhưng không tìm thấy - h
hadoop - Tôi không thể kết nối với máy chủ Hadoop từ máy khách Hadoop
Máy chủ Hadoop nằm trong Kubernetes. Máy khách Hadoop được đặt trên mạng bên ngoài. Vì vậy, tôi đã thử sử dụng dịch vụ kubernetes để sử dụng máy chủ Hadoop. Nhưng hadoop fs -put
hadoop - sudo hadoop vs su hadoop
Có ai gặp phải vấn đề môi trường lạ khi họ buộc phải sử dụng SU thay vì SUDO khi gọi lệnh hadoop chưa? sudo su -c 'hadoop fs -ls /' hdfs Đã tìm thấy 4 mụcdrwxr-x
hadoop - Chạy hadoop với tệp nén làm đầu vào. Dữ liệu đầu vào được đọc bởi hadoop không theo thứ tự. Định dạng số bất thường
Sau khi thay đổi các thuộc tính trong mapred-site.xml, tôi đã cung cấp tệp tar.bz2, tệp .gz và tar.gz làm đầu vào. Không có cách nào ở trên có vẻ hiệu quả. Tôi cho rằng điều đang xảy ra ở đây là hadoop đọc các bản ghi làm đầu vào
hadoop - Nhận tên tệp trong trình ánh xạ Hadoop bằng đường dẫn Hadoop
Làm cách nào để có được tên tệp đầu vào đang được thực thi trong trình ánh xạ hadoop trong Ống Hadoop? Tôi có thể dễ dàng lấy tên tệp trong trình giảm bản đồ dựa trên java như FileSplit fil
hadoop - Truyền dữ liệu và Hadoop? (không phải luồng Hadoop)
Tôi muốn sử dụng phương pháp MapReduce để phân tích luồng dữ liệu liên tục (được truy cập qua HTTP), vì vậy tôi đã xem xét Apache Hadoop. Thật không may, Hadoop dường như muốn bắt đầu công việc với một tệp đầu vào có kích thước cố định, thay vì có thể
Hadoop - Nút tên có thể thực hiện nhiệm vụ không?
Nút tên có thể thực hiện nhiệm vụ không? Theo mặc định, các tác vụ được thực thi trên các nút dữ liệu của cụm. Câu trả lời hay nhất giả sử bạn đang hỏi về MapReduce... Với YARN, các tác vụ MapReduce được thực thi trong cơ sở dữ liệu chính của ứng dụng chứ không phải trong nameno
hadoop - Công nghệ Hadoop Pig được nhóm theo chức năng
Tôi có mối quan hệ A chứa (mã zip). Tôi có mối quan hệ B khác chứa (name:gender:zip-code) (x:m:1234) (y:f:1234) (z:m:1245) (s:f:1235)
hadoop - Hadoop: sắp xếp và xáo trộn
Tôi mới đến khu vực hadoop. Bạn có thể vui lòng giúp tôi trách nhiệm xuất ra biểu mẫu (k2,list[v2,v2,v2...]) (nghĩa là kết hợp khóa và tất cả các giá trị liên quan của nó) không? Cảm ơn. Câu trả lời hay nhất Đây là MapReduce cho Hadoop
hadoop - Chương trình Hadoop Map để in tập tin đầu vào
Vì vậy, tôi đang cố gắng viết một chương trình hadoop lấy đầu vào dưới dạng một tệp chứa nhiều tệp và tôi muốn đầu ra của chương trình hadoop chỉ là một dòng của tệp đầu vào. Nhưng tôi vẫn chưa làm điều đó. Tôi cũng không muốn đi học lớp giảm tốc. nếu ai đó
Hadoop > Lỗi đầu vào của lớp Mapper
Nội dung file văn bản đầu vào tôi sử dụng là 1 "Come 1" Defects," 1 "I 1" Information 1 "J" 2 "Plain 5" Project 1
lệnh hadoop grep
Ai có thể cho tôi biết lệnh grep sau đây làm gì: $ bin/hadoop jar hadoop-*-examples.jar grep input out 'dfs[az.]+' Câu trả lời hay nhất http:/
chức năng giảm bản đồ hadoop
Tôi không hiểu chức năng cơ bản của mapreducer, mapreducer có giúp đưa tệp vào HDFS hay mapreducer chỉ giúp phân tích nội dung trong các tệp hiện có trong HDFS. Tôi mới làm quen với hadoop, ai đó có thể hướng dẫn tôi hiểu không
Sự khác biệt giữa Hadoop put và copyfromlocal
CopyFromLocal sẽ tải dữ liệu lên từ hệ thống tệp cục bộ. Ví dụ: không đặt dữ liệu sẽ được tải lên từ bất kỳ tệp nào. FS cục bộ, Amazon S3 hay chỉ từ fs cục bộ ??? Câu trả lời hay nhất Vui lòng tìm cách sử dụng cả hai lệnh. đặt ======= Hoa Kỳ
Hadoop mapreduce hoạt động nội bộ trên đám mây như thế nào?
Tôi bắt đầu nghiên cứu hadoop mapreduce. Tôi là người mới bắt đầu sử dụng Java và hadoop và hiểu cách mã hóa của hadoop mapreduce nhưng tôi muốn tìm hiểu hoạt động bên trong của nó trên đám mây. Bạn có thể chia sẻ một số liên kết tốt để minh họa
Đường dẫn lớp cho hadoop mapreduce ở đâu?
Tôi đang tìm kiếm đường dẫn lớp cho các lớp Mapreduce của Hadoop. Tôi đang sử dụng hộp cát phiên bản 2.2.4 của Hortonworks. Tôi cần một đường dẫn lớp như thế này để chạy trình biên dịch javac của mình: javac -cp (CLASS_PATH)

Đường tới ông chủ

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

18. Bắt đầu với Hadoop: Bắt đầu với HBase

HBase - Bắt đầu

Giới thiệu về HBase

Các thành phần kiến trúc của HBase

Khách hàng

Người giữ vườn thú

HMaster

Máy chủ HRKhu vực

Khu vực HR

Cửa hàng

Hlog

Mô hình dữ liệu HBase

Phím hàng

Họ cột

Vòng loại cột

Tế bào

Dấu thời gian

Cài đặt HBase

Tải lên và giải nén gói cài đặt

Sửa đổi tập tin cấu hình

Cấu hình các biến môi trường

Sao chép gói jar vào lib

Sửa đổi máy chủ khu vực

Phân phối các gói HBase

Bắt đầu HBase

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

18. Bắt đầu với Hadoop: Bắt đầu với HBase

HBase - Bắt đầu

Giới thiệu về HBase

Các thành phần kiến ​​trúc của HBase

Khách hàng

Người giữ vườn thú

HMaster

Máy chủ HRKhu vực

Khu vực HR

Cửa hàng

Hlog

Mô hình dữ liệu HBase

Phím hàng

Họ cột

Vòng loại cột

Tế bào

Dấu thời gian

Cài đặt HBase

Tải lên và giải nén gói cài đặt

Sửa đổi tập tin cấu hình

Cấu hình các biến môi trường

Sao chép gói jar vào lib

Sửa đổi máy chủ khu vực

Phân phối các gói HBase

Bắt đầu HBase

Các thành phần kiến trúc của HBase