Vấn đề với các tệp nhỏ trong Hadoop là gì?
Vấn đề với các tệp nhỏ trong Hadoop là gì?

Video: Vấn đề với các tệp nhỏ trong Hadoop là gì?

Video: Vấn đề với các tệp nhỏ trong Hadoop là gì?
Video: Lộ diện Data Lake, Data Warehouse và ví dụ thực tế với Hadoop, Hive, Spark 2024, Có thể
Anonim

1) Sự cố tệp nhỏ trong HDFS : Lưu trữ rất nhiều tập tin nhỏ cực kỳ nhỏ hơn hơn kích thước khối không thể được xử lý hiệu quả bằng HDFS . Đọc qua tập tin nhỏ liên quan đến rất nhiều tìm kiếm và nhiều lần nhảy giữa nút dữ liệu này sang nút dữ liệu, điều này dẫn đến việc xử lý dữ liệu không hiệu quả.

Bên cạnh đó, tệp nào giải quyết các sự cố tệp nhỏ trong Hadoop?

1) HAR ( Hadoop Lưu trữ) Các tập tin đã được giới thiệu với đối phó với vấn đề tệp nhỏ . HAR đã giới thiệu một lớp trên đầu trang của HDFS , cung cấp giao diện cho tập tin đang truy cập. Sử dụng Hadoop lệnh lưu trữ, HAR các tập tin được tạo ra, chạy một MapReduce công việc để đóng gói các tập tin được lưu trữ vào nhỏ hơn số lượng Tệp HDFS.

Hơn nữa, tôi có thể có nhiều tệp trong HDFS sử dụng các kích thước khối khác nhau không? Vỡ nợ kích thước của khối là 64 MB. bạn có thể thay đổi nó tùy thuộc vào yêu cầu của bạn. Đến với câu hỏi của bạn có bạn có thể tạo nhiều tệp Bằng cách thay đổi kích thước khối nhưng trong thời gian thực, điều này sẽ không ủng hộ việc sản xuất.

Hơn nữa, tại sao HDFS không xử lý các tệp nhỏ một cách tối ưu?

Có vấn đề với tập tin nhỏ và HDFS Mỗi tập tin , thư mục và chặn trong HDFS là được biểu diễn như một đối tượng trong bộ nhớ của nút tên, mỗi đối tượng chiếm 150 byte, như một quy tắc chung. Hơn nữa, HDFS không hướng đến việc truy cập hiệu quả các tập tin nhỏ : nó Là được thiết kế chủ yếu để truy cập trực tuyến lớn các tập tin.

Tại sao Hadoop chậm?

Chậm Tốc độ xử lý Đĩa này cần thời gian, do đó làm cho toàn bộ quá trình rất chậm . Nếu như Hadoop xử lý dữ liệu với khối lượng nhỏ, nó rất chậm so sánh. Nó lý tưởng cho các tập dữ liệu lớn. Như Hadoop có công cụ xử lý hàng loạt ở cốt lõi, tốc độ xử lý thời gian thực của nó thấp hơn.

Đề xuất: