RDD trong Scala là gì?
RDD trong Scala là gì?

Video: RDD trong Scala là gì?

Video: RDD trong Scala là gì?
Video: Học Bigdata với Spark Bài 9: Linear RDD và DAG trong Spark #spark #bigdata #linear 2024, Tháng mười một
Anonim

Tập dữ liệu được phân phối có khả năng phục hồi ( RDD ) là một cấu trúc dữ liệu cơ bản của Spark. Nó là một tập hợp phân tán bất biến của các đối tượng. RDDs có thể chứa bất kỳ loại Python, Java hoặc Scala các đối tượng, bao gồm các lớp do người dùng định nghĩa. Về mặt hình thức, một RDD là một tập hợp các bản ghi được phân vùng, chỉ đọc.

Ngoài ra câu hỏi là, sự khác biệt giữa RDD và DataFrame là gì?

RDD – RDD là một tập hợp phân tán của các phần tử dữ liệu trải rộng trên nhiều máy bên trong cụm. RDDs là một tập hợp các đối tượng Java hoặc Scala đại diện cho dữ liệu. Khung dữ liệu - MỘT Khung dữ liệu là một tập hợp dữ liệu phân tán được tổ chức thành các cột được đặt tên. Về mặt khái niệm, nó tương đương với một cái bàn trong một cơ sở dữ liệu quan hệ.

Hơn nữa, RDD được phân phối như thế nào? Đàn hồi Được phân phối Bộ dữ liệu ( RDDs ) Họ là một phân phối tập hợp các đối tượng, được lưu trữ trong bộ nhớ hoặc trên đĩa của các máy khác nhau của một cụm. Một đơn RDD có thể được chia thành nhiều phân vùng hợp lý để các phân vùng này có thể được lưu trữ và xử lý trên các máy khác nhau của một cụm.

làm thế nào để spark RDD hoạt động?

RDDs trong Tia lửa có bộ sưu tập các bản ghi có chứa các phân vùng. RDDs trong Tia lửa được chia thành các phần dữ liệu logic nhỏ - được gọi là phân vùng, khi một hành động được thực thi, một tác vụ sẽ được khởi chạy trên mỗi phân vùng. Các phần trong RDDs là các đơn vị cơ bản của phép song song.

RDD hoặc DataFrame cái nào nhanh hơn?

RDD - Trong khi thực hiện các phép toán nhóm và tổng hợp đơn giản RDD API chậm hơn. Khung dữ liệu - Khi thực hiện phân tích khám phá, tạo thống kê tổng hợp về dữ liệu, khung dữ liệu là nhanh hơn . RDD - Khi bạn muốn hành động và chuyển đổi cấp thấp, chúng tôi sử dụng RDDs . Ngoài ra, khi chúng ta cần tóm tắt cấp cao, chúng ta sử dụng RDDs.

Đề xuất: