Công cụ xử lý dữ liệu đằng sau Amazon Elastic MapReduce là gì?
Công cụ xử lý dữ liệu đằng sau Amazon Elastic MapReduce là gì?

Video: Công cụ xử lý dữ liệu đằng sau Amazon Elastic MapReduce là gì?

Video: Công cụ xử lý dữ liệu đằng sau Amazon Elastic MapReduce là gì?
Video: Amazon EMR Deep Dive and Best Practices - AWS Online Tech Talks 2024, Tháng mười một
Anonim

Amazon EMR sử dụng Apache Hadoop làm công cụ xử lý dữ liệu . Hadoop là một mã nguồn mở, khung phần mềm Java hỗ trợ dữ liệu -các ứng dụng phân tán chuyên sâu chạy trên các cụm lớn của phần cứng thương mại.

Hơn nữa, Amazon Elastic MapReduce là gì?

Bản đồ đàn hồi của Amazon ( EMR ) là một Dịch vụ web của Amazon ( AWS ) công cụ để xử lý và phân tích dữ liệu lớn. Amazon EMR xử lý dữ liệu lớn trên một cụm máy chủ ảo Hadoop trên Amazon đàn hồi Điện toán đám mây ( EC2 ) và Amazon Dịch vụ lưu trữ đơn giản ( S3 ).

Hơn nữa, Amazon EMR có được quản lý đầy đủ không? nó là một quản lý đầy đủ dịch vụ hồ dữ liệu có thể tách bộ lưu trữ dữ liệu khỏi tài nguyên máy tính và thay vào đó làm cho các cụm máy tính có thể mở rộng, sẵn có để sử dụng theo yêu cầu và bao gồm khả năng cho nhiều cụm truy cập vào cùng một bộ dữ liệu cùng một lúc.

Người ta cũng có thể hỏi, AWS EMR hoạt động như thế nào?

Nói chung, khi bạn xử lý dữ liệu trong Amazon EMR , đầu vào là dữ liệu được lưu trữ dưới dạng tệp trong hệ thống tệp cơ bản đã chọn của bạn, chẳng hạn như Amazon S3 hoặc HDFS. Dữ liệu này chuyển từ bước này sang bước tiếp theo trong trình tự xử lý. Bước cuối cùng ghi dữ liệu đầu ra vào một vị trí cụ thể, chẳng hạn như Amazon Gầu S3.

Sự khác biệt giữa ec2 và EMR là gì?

không giống EMR , EC2 không phân loại các nút nô lệ thành các nút lõi và nút nhiệm vụ. Điều này làm tăng nguy cơ mất dữ liệu HDFS trong trường hợp một nút bị xóa / mất. EC2 sử dụng các thư viện Apache (s3a) để truy cập dữ liệu trên s3. Mặt khác, EMR sử dụng mã độc quyền của AWS để có quyền truy cập nhanh hơn vào s3.

Đề xuất: