Hadoop bilan ishlaydigan ma'lumotlar tahlilchilari yoki ma'lumotlar olimlari ma'lumotlarni qayta ishlash uchun foydalanadigan R paketlari yoki R skriptlariga ega bo'lishi mumkin. Ushbu R skriptlari yoki R paketlarini Hadoop bilan ishlatish uchun ular ushbu R skriptlarini Java dasturlash tilida yoki Hadoop MapReduce-ni amalga oshiradigan boshqa tillarda qayta yozishlari kerak. Bu og'ir jarayon va istalmagan xatolarga olib kelishi mumkin. Hadoop-ni R dasturlash tili bilan integratsiya qilish uchun biz Hadoop-ning taqsimlangan xotirasida saqlanadigan ma'lumotlar bilan R tili uchun allaqachon yozilgan dasturiy ta'minotdan foydalanishimiz kerak. Katta hisob-kitoblarni amalga oshirish uchun R tilidan foydalanishning ko'plab echimlari mavjud, ammo bu echimlarning barchasi ma'lumotlarni hisoblash tugunlariga tarqatishdan oldin xotiraga yuklanishini talab qiladi. Bu katta ma'lumotlar to'plamlari uchun ideal echim emas.
Ma'lumotlarni tozalash, ma'lumotlarni qayta ishlash va ma'lumotlarni vizualizatsiya qilish uchun Data Analytics misol kodlariga BEPUL kirish
1) RHADOOP - R-ni ish stantsiyalariga o'rnating va Hadoop-dagi ma'lumotlarga ulaning
R dasturlash tilini Hadoop bilan integratsiya qilish uchun eng ko'p ishlatiladigan ochiq manbali tahliliy yechim RHadoop hisoblanadi. Revolution Analytics tomonidan ishlab chiqilgan RHadoop foydalanuvchilarga HBase ma'lumotlar bazasi quyi tizimlari va HDFS fayl tizimlaridan to'g'ridan-to'g'ri ma'lumotlarni olish imkonini beradi. Rhadoop to'plami soddaligi va xarajat afzalligi tufayli Hadoop-da R-dan foydalanish uchun "o'tish" yechimidir. Rhadoop - bu Hadoop foydalanuvchilariga R dasturlash tilidan foydalangan holda ma'lumotlarni boshqarish va tahlil qilish imkonini beruvchi 5 xil paketlar to'plami. RHadoop to'plami ochiq manba Hadoop bilan, shuningdek, mashhur Hadoop tarqatishlari - Cloudera, Hortonworks va MapR bilan mos keladi.
rhbase - rhbase to'plami Thrift serveridan foydalangan holda R ichida HBase uchun ma'lumotlar bazasini boshqarish funktsiyalarini ta'minlaydi . Ushbu paket R mijozini ishga tushiradigan tugunga o'rnatilishi kerak. Rhbase-dan foydalanib, ma'lumotlar muhandislari va ma'lumotlar olimlari HBase jadvallarida saqlangan ma'lumotlarni R ichidan o'qishlari, yozishlari va o'zgartirishlari mumkin.
rhdfs -rhdfs to'plami R dasturchilariga Hadoop HDFS-da saqlangan ma'lumotlarni o'qish, yozish yoki o'zgartirish uchun Hadoop taqsimlangan fayl tizimiga ulanish imkonini beradi.
plyrmr - Ushbu paket Hadoop tomonidan boshqariladigan katta ma'lumotlar to'plamlarida ma'lumotlarni manipulyatsiya qilish operatsiyalarini qo'llab-quvvatlaydi. Plyrmr (MapReduce uchun plyr) reshape2 va plyr kabi mashhur paketlarda mavjud bo'lgan ma'lumotlarni manipulyatsiya qilish operatsiyalarini ta'minlaydi. Ushbu paket operatsiyalarni bajarish uchun Hadoop MapReduce-ga bog'liq, lekin MapReduce tafsilotlarining ko'p qismini abstrakt qiladi.
ravro - Ushbu paket foydalanuvchilarga mahalliy va HDFS fayl tizimlaridan Avro fayllarini o'qish va yozish imkonini beradi.
rmr2 ( Hadoop MapReduce ichida R-ni bajaring ) - Ushbu paketdan foydalanib, R dasturchilar Hadoop klasterida saqlangan ma'lumotlarning statistik tahlilini amalga oshirishlari mumkin. Rmr2-dan foydalanish R-ni Hadoop bilan integratsiya qilish uchun mashaqqatli jarayon bo'lishi mumkin, ammo ko'plab R dasturchilari Java-ga asoslangan Hadoop xaritalash moslamalari va reduktorlariga qaraganda rmr2-dan foydalanishni ancha oson deb bilishadi. rmr2 biroz zerikarli bo'lishi mumkin, ammo u ma'lumotlar harakatini yo'q qiladi va katta ma'lumotlar to'plamlarini boshqarish uchun hisoblashni parallellashtirishga yordam beradi.