Disyorkan, 2024

Pilihan Editor

Cloudera Bergerak Hadoop Beyond MapReduce

Hadoop. Введение в Big Data и MapReduce

Hadoop. Введение в Big Data и MapReduce
Anonim

Dengan update terkini kepada pengedaran Apache Hadoop, Cloudera telah menyediakan kemungkinan menggunakan algoritma pemprosesan data di luar MapReduce yang lazim, syarikat itu mengumumkan Selasa.

Versi 4 dari Distribusi Cloudera termasuk Apache Hadoop (CDH) juga dilengkapi dengan nombor Peningkatan daya tahan yang sepatutnya membolehkan organisasi "mengendalikan beban kerja yang lebih penting pada sistem," kata Charles Zedlewski, naib presiden produk Cloudera.

CDH4 memperluaskan bilangan proses pengiraan yang boleh dilaksanakan di bawah Hadoop, Zedlewski menjelaskan. Biasanya, Hadoop akan menggunakan MapReduce, yang memecah tugas analisa data ke atas pelbagai node, dan kemudian mengumpul hasilnya sebagai node melengkapkan bahagian tugas mereka.

CDH4 memperkenalkan ciri baru yang disebut coprocessors, yang membolehkan program perisian menjadi tertanam dengan data itu sendiri. Program dilaksanakan apabila syarat-syarat tertentu dipenuhi, seperti ketika purata satu set angka mencapai ambang yang telah ditetapkan. Idea ini sama dengan pencetus pangkalan data dan prosedur tersimpan. Program-program ini terletak dengan data yang tersebar di beberapa pelayan.

Coprocessors membenarkan lebih banyak fleksibiliti daripada operasi MapReduce. "Kami kini boleh melakukan lebih banyak masa nyata atau operasi berterusan mengenai data bergerak," kata Zedlewski. "Ini membolehkan anda untuk mendorong operasi intensif data ke dalam lapisan data dan menyeragamkan beban kerja di sana."

CDH4 juga membolehkan pengguna untuk melaksanakan rangka kerja analisis data mereka sendiri selain MapReduce. "Anda tidak perlu lagi memegang semua beban kerja pengguna anda menjadi satu paradigma," kata Zedlewski. "MapReduce adalah proses yang sangat linear, tetapi kadang-kadang perlu bekerja pada proses berulang."

Salah satu contoh program yang dapat berfungsi pada CDH4 ialah Apache Hama, rangka kerja pengkomputeran sejajar selari yang dapat digunakan untuk saintifik pengiraan. Hama "boleh bekerja pada data yang sama seperti MapReduce.Ia boleh meminjam CPU dan memori yang sama yang menggunakan MapReduce pekerjaan," kata Zedlewski.

CDH4 dilengkapi dengan beberapa ciri-ciri lain, semuanya disesuaikan dari terkini versi komponen sumber terbuka yang membentuk platform Hadoop, seperti sistem fail HDFS dan sistem pangkalan data HBase.

Pengedaran baru menangani salah satu kelemahan asas Hadoop, iaitu pergantungan sistem fail pada satu nama tunggal untuk mengarahkan semua trafik. Namenode menjejak di mana semua data dalam kumpulan Hadoop berada. Hanya mempunyai satu namenode untuk kluster dianggap sebagai kelemahan. Sekiranya namenode itu berhenti berfungsi dengan betul, seluruh sistem tidak dapat digunakan. Versi CDH ini mengatasi masalah tersebut dengan memasukkan keupayaan untuk menetapkan namenod sandaran yang secara automatik akan digunakan apabila nama fail primer gagal.

CDH4 menyediakan keupayaan untuk menjalankan versi Hadoop yang berbeza dalam satu sistem. Ini akan memudahkan proses menaik taraf kepada versi baru Hadoop. Setiap nod tidak perlu dikemas kini pada masa yang sama. CDH4 juga dilengkapi dengan beberapa kemas kini keselamatan. Sebagai contoh, HBase kini boleh membenarkan akses kepada jadual dan lajur berdasarkan pengguna dan kumpulan yang ditetapkan. Ini membantu mendapatkan maklumat sensitif yang selamat dan juga membenarkan penyedia perkhidmatan untuk menjalankan Hadoop untuk beberapa pelanggan.

Perisian pengurusan syarikat untuk CDH4, yang dipanggil Cloudera Manager, telah dikemas kini juga. Edisi baru, versi 4, boleh digunakan untuk menguruskan pelbagai kluster. Pentadbir boleh membuat kumpulan yang berlainan untuk ujian dan pengeluaran, atau menawarkan kelompok yang berasingan bagi pengguna yang berbeza dalam perusahaan. Perisian ini termasuk alat visualisasi baru yang menggunakan peta haba untuk memberikan petunjuk visual di mana masalah masalah mungkin berada. Versi ini adalah yang pertama mempunyai API (antara muka pengaturcaraan aplikasi), supaya semua fungsi dapat diakses dari program lain, seperti perisian pengurusan perkhidmatan bersepadu Tivoli IBM.

Selain daripada siaran produk ini, Cloudera juga mengumumkan bahawa ia telah menandatangani dengan 250 rakan kongsi, yang menawarkan produk atau perkhidmatan pelengkap berdasarkan versi Hadoop Cloudera.

Joab Jackson merangkumi perisian perusahaan dan berita teknologi umum untuk IDG Perkhidmatan Berita . Ikut Joab di Twitter di @Joab_Jackson. Alamat e-mel Joab ialah [email protected]

Top