Hadoop là gì

Trong thời đại technology 4.0 ngày này, chắc rằng chúng ta được nghe không ít về AI, big data Machine Learning tốt điện tân oán đám mây… Nhưng tất cả phần nhiều technology đó đều phải dựa vào tài nguyên ổn của người tiêu dùng đó là Big data.

Bạn đang xem: Hadoop là gì

Vậy Big Data là gì? Big Data là 1 trong những tập phù hợp dữ liệu rất to lớn cùng rất tinh vi cho nỗi những vẻ ngoài, kỹ thuật cách xử trí tài liệu truyền thống lịch sử cần yếu như thế nào đảm đương được. Trong thời điểm này BIg data đã là 1 trong những ưu tiên số 1 của các công ty technology trên toàn quả đât, vậy đa số chuyên môn tân tiến làm sao để giúp đỡ những cửa hàng xử lý được sự việc của Big Data? Và lúc này mình xin giới thiệu về Hadoop, một framework được dùng phổ biến duy nhất nhằm giải quyết và xử lý các bài xích tân oán về Big Data.

1. Hadoop là gì?

Hadoop là 1 trong những Apache framework mối cung cấp mở viết bằng Java cho phép trở nên tân tiến các áp dụng phân tán bao gồm độ mạnh tài liệu lớn một phương pháp miễn phí. Nó được thiết kế với nhằm mở rộng đồ sộ xuất phát từ một sever 1-1 sang trọng hàng vạn laptop không giống gồm tính toán với lưu trữ tổng thể (local computation và storage). Hadoop được cách tân và phát triển dựa vào ý tưởng từ những chào làng của Google về quy mô Map-Reduce với hệ thống file phân tán Google File System (GFS). Và bao gồm cung ứng đến chúng ta một môi trường xung quanh song tuy nhiên nhằm triển khai các tác vụ Map-Reduce.

Nhờ gồm cơ chế streaming mà lại Hadoop có thể cách tân và phát triển trên các áp dụng phân tán bởi cả java lẫn một số trong những ngữ điệu lập trình sẵn khác như C++, Pyhnhỏ nhắn, Pearl,...

2. Kiến trúc của Hadoop

Hadoop bao gồm một cấu trúc liên kết master-slave. Trong cấu tạo này, chúng ta tất cả một node master và những node slave sầu . Chức năng của node master là gán một tác vụ cho những node slave sầu khác biệt và làm chủ tài nguyên ổn. Các node slave là máy tính thực tế có thể không mạnh lắm. Các node slave sầu lưu trữ tài liệu thực trong những khi trên master họ có metadata.

Kiến trúc Hadoop tất cả bao gồm ba lớp thiết yếu đó là

HDFS (Hadoop Distributed File System)Map-ReduceYarn

2.1 HDFS (Hadoop Distributed File System)

Là khối hệ thống file phân tán, cung ứng tài năng tàng trữ tài liệu to con và nhân kiệt buổi tối ưu hoá Việc áp dụng đường truyền giữa các node. HDFS hoàn toàn có thể được áp dụng nhằm chạy trên một cluster mập với hàng vạn node.Cho phép truy xuất các ổ đĩa như là một trong ổ đĩa. Nói cách khác, bạn cũng có thể thực hiện một ổ đĩa mà gần như là không bị số lượng giới hạn về dung tích. Muốn nắn tăng dung tích chỉ việc thêm node (sản phẩm tính) vào khối hệ thống.Có phong cách thiết kế Master-SlaveNameNode chạy trên sever Master, bao gồm tác vụ cai quản Namespace và kiểm soát và điều chỉnh truy cập tệp của clientDataNode chạy xe trên những nút ít Slave. bao gồm tác vụ lưu trữ business data thực tếMột tập tin với định hình HDFS được chia thành những blochồng và mọi blochồng này được lưu trữ trong một tập các DataNodesKích thước 1 bloông xã thông thường là 64MB, kích cỡ này hoàn toàn có thể đổi khác được bởi bài toán cấu hình

*

2.2 Map-Reduce

Map-Reduce là một trong framework dùng làm viết những vận dụng cách xử lý song song một lượng Khủng dữ liệu có công dụng chịu lỗi cao xuyên thấu hàng ngàn cluster(cụm) máy tính

Map-Reduce tiến hành 2 chức năng chính chính là MapReduce

Map: Sẽ triển khai thứ nhất, tất cả tính năng cài đặt, so sánh dữ liệu nguồn vào cùng được chuyển đổi thành tập dữ liệu theo cặp key/valueReduce: Sẽ thừa nhận kết quả cổng output từ bỏ tác vụ Map, phối kết hợp dữ liệu lại với nhau thành tập tài liệu nhỏ tuổi hơn

*

Để dễ nắm bắt hơn, chúng ta hãy thuộc coi ví dụ WordCount sau đây. WordCount là bài xích tân oán đếm gia tốc lộ diện của các tự trong khúc vnạp năng lượng bạn dạng. Và chúng ta vẫn mô tả quy trình cách xử trí bài xích toán thù này bởi Map-Redue

*

Đối cùng với hàm Map:

Input là một trong đoạn vnạp năng lượng bảnđầu ra là những cặp

Hàm Map được thực hiện song tuy nhiên nhằm xử lý các tập tài liệu khác biệt.

Xem thêm: Tất Tần Tật Về Sap B1 Là Gì (Sap Business One), Tất Tần Tật Về Sap Business One

Đối Với hàm Reduce:

Input bao gồm dạng , trong các số đó list là tập hợp các quý giá đếm được của mỗi từOutput:

Hàm Reduce cũng khá được chạy song song để xử trí những tập từ khóa không giống nhau.

Giữa hàm Map với Reduce bao gồm một tiến độ cách xử trí trung gian Call là hàm Shuffle. Hàm này có trọng trách sắp xếp những tự cùng tổng đúng theo tài liệu nguồn vào mang đến Reduce tự các hiệu quả đầu ra output của hàm Map.

2.3 Yarn

YARN (Yet-Another-Resource-Negotiator) là 1 trong những framework cung ứng cải cách và phát triển áp dụng phân tán YARN cung cấp daemons và APIs quan trọng cho vấn đề phát triển áp dụng phân tán, đôi khi cách xử trí cùng lập lịch sử hào hùng dụng tài ngulặng tính tân oán (CPU tốt memory) cũng tương tự đo lường quy trình triển khai các áp dụng đó.

Bên trong YARN, họ bao gồm hai trình cai quản ResourceManager cùng NodeManage

ResourceManager: Quản lý tổng thể tài ngulặng tính tân oán của cluster.NodeManger: Gigiết hại Việc thực hiện tài nguim của container và báo cáo với ResourceManger. Các tài nguyên sống đây là CPU, memory, disk, network,...

*

Quá trình 1 áp dụng chạy trên YARN được biểu đạt bằng sơ đồ gia dụng trên qua các bước sau:

Client giao 1 task mang đến Resource ManagerResource Manager tính toán thù tài nguim cần thiết theo kinh nghiệm của áp dụng cùng tạo 1 App Master (App Mstr). Application Master được đưa mang lại chạy 1 một node tính tân oán. Application Master đang liên hệ cùng với các NodeManager ở những node khác nhằm ra thử khám phá các bước mang lại node này.Node Manager nhận đòi hỏi cùng chạy các task trên containerCác biết tin tinh thần cố gắng bởi vì được gửi cho JobTracker sẽ tiến hành gửi cho App Master.

Xem thêm: Cách Dùng Bộ Sản Phẩm Ohui / Whoo / Sum37 Mới Nhất【Xem 1,056,231】

ResourceManger bao gồm nhị thành phần đặc biệt chính là Scheduler và ApplicationManager

Scheduler tất cả trách nhiệm phân chia tài nguyên cho các áp dụng không giống nhau. Đây là Scheduler thuần túy vày nó không thực hiện quan sát và theo dõi tâm trạng mang lại vận dụng. Nó cũng ko thu xếp lại các tác vụ bị lỗi vị lỗi phần cứng hoặc ứng dụng. Bộ lập định kỳ phân bổ những tài nguyên ổn dựa trên các đề nghị của ứng dụng

ApplicationManager tất cả chức năng sau:

Chấp dấn nộp công việc.Đàm phán container đầu tiên để triển khai ApplicationMaster. Một vị trí cất phối hợp các yếu tố như CPU, bộ nhớ, đĩa cùng mạng.Khởi đụng lại container ApplicationMaster lúc không thành công.

Chúng ta rất có thể mở rộng YARN quanh đó một vài nghìn node thông qua anh tài YARN Federation. Tính năng này được cho phép bọn họ buộc nhiều cụm YARN thành một nhiều mập. Điều này chất nhận được áp dụng các cụm chủ quyền, ghnghiền lại cùng nhau cho một job vô cùng lớn


Chuyên mục: Kiến thức