Làm thế nào để bản địa hóa dữ liệu đạt được trong Hadoop?
Làm thế nào để bản địa hóa dữ liệu đạt được trong Hadoop?

Video: Làm thế nào để bản địa hóa dữ liệu đạt được trong Hadoop?

Video: Làm thế nào để bản địa hóa dữ liệu đạt được trong Hadoop?
Video: Lộ diện Data Lake, Data Warehouse và ví dụ thực tế với Hadoop, Hive, Spark 2024, Tháng mười một
Anonim

Bản địa hóa dữ liệu trong Hadoop . Lấy ví dụ về Wordcount mẫu, trong đó hầu hết các từ đã được lặp lại từ 5 Lacs trở lên. Trong trường hợp đó sau giai đoạn Mapper, mỗi đầu ra ánh xạ sẽ có các từ trong phạm vi 5 Lac. Quá trình hoàn chỉnh để lưu trữ đầu ra của Mapper sang LFS được gọi là Bản địa hóa dữ liệu.

Theo dõi điều này, bản địa hóa dữ liệu trong Hadoop là gì?

Khái niệm của Dữ liệu địa phương ở Dữ liệu Hadoop địa phương ở MapReduce đề cập đến khả năng di chuyển tính toán gần với vị trí thực tế dữ liệu nằm trên nút, thay vì di chuyển lớn dữ liệu để tính toán. Điều này giảm thiểu tắc nghẽn mạng và tăng thông lượng tổng thể của hệ thống.

Ngoài ra, dữ liệu lớn được lưu trữ như thế nào? Hầu hết mọi người tự động liên kết HDFS hoặc Hệ thống tệp phân tán Hadoop với Hadoop dữ liệu các kho hàng. HDFS lưu trữ thông tin trong các cụm được tạo thành từ các khối nhỏ hơn. Các khối này là cất giữ trong vật lý tại chỗ kho đơn vị, chẳng hạn như ổ đĩa nội bộ.

Như vậy, dữ liệu được lưu trữ trong Hadoop như thế nào?

Trên một Hadoop cụm, dữ liệu trong HDFS và hệ thống MapReduce được đặt trên mọi máy trong cụm. Dữ liệu Là cất giữ trong dữ liệu trên DataNodes. HDFS sao chép những dữ liệu các khối, thường có kích thước 128MB và phân phối chúng để chúng được sao chép trong nhiều nút trên toàn cụm.

Làm thế nào các tệp được lưu trữ trong HDFS?

HDFS phơi bày một tập tin không gian tên hệ thống và cho phép dữ liệu người dùng được cất giữ trong các tập tin . Trong nội bộ, một tập tin được chia thành một hoặc nhiều khối và các khối này cất giữ trong một tập hợp các Mã dữ liệu. NameNode thực thi tập tin các hoạt động không gian tên hệ thống như mở, đóng và đổi tên các tập tin và các thư mục.

Đề xuất: