|
|
səhifə | 3/3 | tarix | 20.12.2022 | ölçüsü | 70,21 Kb. | | #76795 |
| Big data lab işi 10
5.7.2. Pig Script nümunəsi
Drayver verilənlərini yükləmək və xülasə hesabatları hazırlamaq üçün Pig Script nümunəsinə baxaq.
# Read file 1 and create a schema
drivers = LOAD ‘drivers.csv’ USING PigStorage(‘,’);
drivers_details = FOREACH drivers GENERATE $0 AS driverId, $1 AS name;
# Read file 2 and create a schema
timesheet = LOAD ‘timesheet.csv’ USING PigStorage(‘,’);
timesheet_logged = FOREACH timesheet GENERATE $0 AS driverId, $2 AS hours_logged,
$3 AS miles_logged;
# generate summary data and add those fields to schema grp_logged = GROUP timesheet_logged by driverId;
sum_logged = FOREACH grp_logged GENERATE group as driverId, SUM(timesheet_logged.hours_logged) as sum_hourslogged, SUM(timesheet_logged.miles_logged) as sum_mileslogged;
# generate a JOIN of two files and generate a report from it
join_sum_logged = JOIN sum_logged by driverId, drivers_details by driverId;
join_data = FOREACH join_sum_logged GENERATE $0 as driverId, $4 as name, $1 as hours_logged, $2 as miles_logged;
# discard the temporary JOIN relation dump join_data;
Nəticə
MapReduce, Big Data üçün ən populyar paralel işləmə freymvörküdür. Verilərin böyük, ayrı hissələrə bölünə bilən və cüt formatında təqdim oluna biləcəyi tətbiqetmələr üçün yaxşı işləyir. Tətbiq məntiqi iki hissəyə bölünür: Map proqramı və Reduce proqramı. Bu proqramların hər biri bir neçə maşından istifadə etməklə paralel olaraq işlədilə bilər. JobTracker bütün MapReduce işinin emalıni izləyir, TaskTracker isə verilənlər düyünündə işləmə prosesini izləyir. Hive və Pig MapReduce proqramlaşdırmanı asanlaşdıran yüksək səviyyəli dillərdir.
Dostları ilə paylaş: |
|
|