CFSDN nhấn mạnh vào giá trị tạo ra nguồn mở và chúng tôi cam kết xây dựng nền tảng chia sẻ tài nguyên để mọi nhân viên CNTT có thể tìm thấy thế giới tuyệt vời của bạn tại đây.
Bài viết trên blog CFSDN này có các bước chi tiết để xây dựng môi trường giả phân tán Hadoop 2.x, được tác giả sưu tầm và biên soạn. Nếu bạn quan tâm đến bài viết này thì nhớ like nhé.
Bài viết này sử dụng kết hợp hình ảnh và văn bản để giới thiệu chi tiết toàn bộ quá trình xây dựng môi trường phân tán giả Hadoop 2.x để các bạn tham khảo.
1. Sử dụng hadoop-env.sh, yarn-env.sh, mapred-env.sh.
Phương pháp: Sử dụng notepad++ (người dùng Beifeng) để mở ba tệp này.
Thêm mã: xuất JAVA_HOME=/opt/modules/jdk1.7.0_67.
2. Sửa đổi các tệp cấu hình core-site.xml, hdfs-site.xml, sợi-site.xml, mapred-site.xml.
1) Sửa đổi core-site.xml.
?
1
2
3
4
5
6
7
8
9
10
|
<
cấu hình
>
<
tài sản
>
<
tên
>fs.defaultFS
tên
>
<
giá trị
>hdfs://Hadoop-senior02.beifeng.com:8020
giá trị
>
tài sản
>
<
tài sản
>
<
tên
>hadoop.tmp.dir
tên
>
<
giá trị
>/opt/modules/hadoop-2.5.0/data
giá trị
>
tài sản
>
cấu hình
>
|
2) Sửa đổi hdfs-site.xml.
?
1
2
3
4
5
6
7
8
9
10
|
<
cấu hình
>
<
tài sản
>
<
tên
>dfs.replication
tên
>
<
giá trị
>1
giá trị
>
tài sản
>
<
tài sản
>
<
tên
>dfs.namenode.http-address
tên
>
<
giá trị
>Hadoop-senior02.beifeng.com:50070
giá trị
>
tài sản
>
cấu hình
>
|
3) Sửa đổi sợi-site.xml.
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|
<
cấu hình
>
<
tài sản
>
<
tên
>yarn.nodemanager.aux-services
tên
>
<
giá trị
>mapreduce_shuffle
giá trị
>
tài sản
>
<
tài sản
>
<
tên
>yarn.resourcemanager.hostname
tên
>
<
giá trị
>Hadoop-senior02.beifeng.com
giá trị
>
tài sản
>
<
tài sản
>
<
tên
>yarn.log-aggregation-enable
tên
>
<
giá trị
>đúng
giá trị
>
tài sản
>
<
tài sản
>
<
tên
>yarn.log-aggregation.retain-giây
tên
>
<
giá trị
>86400
giá trị
>
tài sản
>
cấu hình
>
|
4) Sửa đổi mapred-site.xml.
?
1
2
3
4
5
6
7
8
9
10
|
<
cấu hình
>
<
tài sản
>
<
tên
>mapreduce.framework.tên
tên
>
<
giá trị
>sợi len
giá trị
>
tài sản
>
<
tài sản
>
<
tên
>mapreduce.jobhistory.webapp.address
tên
>
<
giá trị
>0.0.0.0:19888
giá trị
>
tài sản
>
cấu hình
>
|
3. Bắt đầu hdf.
1) Định dạng nút tên: $ bin/hdfs nút tên -format.
2) Lệnh namenode:$sbin/hadoop-daemon.sh start namenode 。
3) Chạy lệnh datanode:$sbin/hadoop-daemon.sh start datanode 。
4) Trang web giám sát HDFS: http://hadoop-senior02.beifeng.com:50070.
4. Bắt đầu sợi.
1) Lệnh resourcemanager:$sbin/yarn-daemon.sh start resourcemanager 。
2) Khởi động trình quản lý nút: sbin/yarn-daemon.sh khởi động trình quản lý nút.
3) Trang web giám sát sợi: http://hadoop-senior02.beifeng.com:8088.
5. Kiểm tra gói jar đếm từ.
1) Đường dẫn định vị:/opt/modules/hadoop-2.5.0.
2) Kiểm tra mã: bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input/sort.txt /output6/.
Quá trình chạy:
16/05/08 06:39:13 INFO client.RMProxy: Đang kết nối với ResourceManager tại Hadoop-senior02.beifeng.com/192.168.241.130:8032 16/05/08 06:39:15 INFO input.FileInputFormat: Tổng số đường dẫn đầu vào để xử lý: 1 16/05/08 06:39:15 INFO mapreduce.JobSubmitter: số lượng phân tách: 1 16/05/08 06:39:15 INFO mapreduce.JobSubmitter: Đang gửi mã thông báo cho công việc: job_1462660542807_0001 16/05/08 06:39:16 INFO impl.YarnClientImpl: Đã gửi ứng dụng application_1462660542807_0001 16/05/08 06:39:16 THÔNG TIN mapreduce.Job: URL để theo dõi công việc: http://Hadoop-senior02.beifeng.com:8088/proxy/application_1462660542807_0001/ 16/05/08 06:39:16 THÔNG TIN mapreduce.Job: Công việc đang chạy: job_1462660542807_0001 16/05/08 06:39:36 THÔNG TIN mapreduce.Job: Công việc job_1462660542807_0001 đang chạy ở chế độ uber: false 16/05/08 06:39:36 THÔNG TIN mapreduce.Job: map 0% giảm 0% 16/05/08 06:39:48 THÔNG TIN mapreduce.Job: map 100% giảm 0% 16/05/08 06:40:04 THÔNG TIN mapreduce.Job: map 100% giảm 100% 16/05/08 06:40:04 THÔNG TIN mapreduce.Job: Job job_1462660542807_0001 đã hoàn thành thành công 16/05/08 06:40:04 THÔNG TIN mapreduce.Job: Bộ đếm: 49 。
3) Xem kết quả: bin/hdfs dfs -text /output6/par*.
Kết quả chạy:
hadoop 2 jps 1 mapreduce 2 yarn 1 。
6. Máy chủ lịch sử MapReduce.
1) Bắt đầu: sbin/mr-jobhistory-daemon.sh khởi động historyserver.
2) Giao diện người dùng web: http://hadoop-senior02.beifeng.com:19888.
7. Các hàm HDFS, sợi, mapreduce.
1) hdfs: hệ thống file phân tán, hệ thống file có khả năng chịu lỗi cao, thích hợp triển khai trên các máy giá rẻ.
HDFS là cấu trúc master-slave, được chia thành namenode và datanode, trong đó namenode là không gian tên, datanode là không gian lưu trữ và datanode được lưu trữ dưới dạng khối dữ liệu, mỗi khối dữ liệu là 128M.
2) sợi: một hệ thống quản lý tài nguyên chung cung cấp khả năng lập kế hoạch và quản lý tài nguyên thống nhất cho các ứng dụng lớp trên.
Sợi được chia thành trình quản lý tài nguyên và trình quản lý nút. Trình quản lý tài nguyên chịu trách nhiệm lập kế hoạch và phân bổ tài nguyên, còn trình quản lý nút chịu trách nhiệm xử lý dữ liệu và tài nguyên.
3) mapreduce: MapReduce là mô hình tính toán, được chia thành Map (ánh xạ) và Giảm (rút gọn).
Sau khi bản đồ xử lý từng hàng dữ liệu, nó sẽ xuất hiện dưới dạng các cặp khóa-giá trị và chuyển chúng sang phần giảm tổng hợp và đếm dữ liệu được truyền qua bản đồ.
Trên đây là toàn bộ nội dung bài viết này, hi vọng nó sẽ hữu ích cho việc học tập của mọi người.
Cuối cùng, bài viết này về các bước chi tiết để xây dựng môi trường phân phối giả Hadoop 2.x kết thúc tại đây. Nếu bạn muốn biết thêm về các bước chi tiết để xây dựng môi trường phân phối giả Hadoop 2.x, vui lòng tìm kiếm bài viết CFSDN hoặc. tiếp tục duyệt các bài viết liên quan, tôi hy vọng bạn sẽ ủng hộ blog của tôi trong tương lai! .
Tôi là một lập trình viên xuất sắc, rất giỏi!