Giảm theo khóa là gì?
Giảm theo khóa là gì?
Anonim

Hàm Spark RDD ReduceByKey hợp nhất các giá trị cho từng Chìa khóa sử dụng một liên kết giảm hàm số. Điều đó có nghĩa trực quan, hàm này tạo ra cùng một kết quả khi được áp dụng lặp lại trên cùng một tập dữ liệu RDD với nhiều phân vùng bất kể thứ tự của phần tử.

Sau đó, sự khác biệt giữa groupByKey và ReduceByKey là gì?

groupByKey () chỉ để nhóm tập dữ liệu của bạn dựa trên một khóa. giảm bớt () là một cái gì đó giống như nhóm + tổng hợp. giảm bớt có thể được sử dụng khi chúng tôi chạy trên tập dữ liệu lớn. sharedByKey () về mặt logic giống như giảm bớt () nhưng nó cho phép bạn trả về kết quả khác nhau kiểu.

Cũng biết, tại sao giảm là hành động trong tia lửa? Giảm tia lửa hoạt động là một hoạt động loại hoạt động và nó kích hoạt thực thi DAG đầy đủ cho tất cả các hướng dẫn lười biếng được sắp xếp. Tia lửa RDD giảm hàm giảm các phần tử của RDD này bằng cách sử dụng toán tử nhị phân giao hoán và kết hợp được chỉ định. Giảm tia lửa hoạt động gần tương tự như giảm trong Scala.

Bên cạnh trên, Pairrdd là gì?

Spark cung cấp các hoạt động đặc biệt trên RDD có chứa các cặp khóa / giá trị. Các RDD này được gọi là RDD cặp. Cặp RDD là một khối xây dựng hữu ích trong nhiều chương trình, vì chúng thể hiện các hoạt động cho phép bạn thực hiện song song từng khóa hoặc nhóm lại dữ liệu trên toàn mạng. Ghép nốiRDDs là các cặp KEY / VALUE.

ReduceByKey có phải là một hành động không?

Reduce () xuất ra một tập hợp không thêm vào biểu đồ xoay chiều có hướng (DAG), do đó được triển khai dưới dạng hoạt động . Tuy vậy, giảm bớt () trả về một RDD chỉ là một mức / trạng thái khác trong DAG, do đó là một phép biến đổi.

Đề xuất: