Selasa, 11 Oktober 2016

Apa itu Big Data?


Data besar


BERIKUTNYA HAL BESAR?

Panas di tumit dari Web 2.0 dan komputasi awan, Big Data mungkin menjadi Next Big Thing dalam dunia IT. Sedangkan Web 2.0 orang link dan hal-hal online, dan komputasi awan adalah tentang transisi ke infrastruktur komputasi online, Big Data menghasilkan nilai dari penyimpanan dan pengolahan jumlah yang sangat besar informasi digital yang tidak dapat dianalisis dengan teknik komputasi tradisional. Pada akhir 2015, perkiraan Cisco bahwa lalu lintas Internet global akan mencapai 4,8 zettabytes setahun. Itu 4,8 miliar terabyte, dan sinyal baik tantangan Big Data dan kesempatan Big Data di cakrawala. Halaman ini memberikan gambaran tentang karakteristik Big Data, teknologi dan peluang. Informasi ini juga dirangkum dalam video saya di Menjelaskan Big Data.

THE BIG DATA LEDAKAN

Jumlah data komputer yang dihasilkan di Planet Bumi tumbuh secara eksponensial untuk sejumlah alasan terkait. Untuk awal, sebagai akibat dari e-commerce dan kartu loyalitas skema, pengecer mulai membangun database besar aktivitas pelanggan dicatat. Organisasi yang bekerja di logistik, jasa keuangan, kesehatan dan banyak sektor lainnya juga sekarang menangkap lebih banyak dan lebih banyak data dan ingin menghasilkan nilai tambah dari itu. Penggunaan umum dari media sosial juga menciptakan sejumlah besar materi digital yang berpotensi ditambang dan crowdsourced untuk menghasilkan wawasan berharga.

Seperti pengakuan visi membaik, itu tambahan mulai menjadi mungkin bagi komputer untuk mengumpulkan informasi yang berguna dan hubungan data dari gambar diam dan video. Karena lebih banyak benda pintar online, Big Data juga yang dihasilkan oleh Internet memperluas Hal. Dan akhirnya, beberapa daerah dari kemajuan ilmu pengetahuan - termasuk sekuensing cepat genom, nanoteknologi, biologi sintetis, dan simulasi iklim - mulai menghasilkan dan mengandalkan sejumlah besar data yang sampai sangat baru-baru ini hampir tak terbayangkan.

VOLUME, KECEPATAN DAN VARIETAS

Menangkap, menyimpan dan menghasilkan nilai dari Big Data menimbulkan sejumlah tantangan teknis dan konseptual yang melampaui kemampuan komputasi tradisional. Untuk mendapatkan pegangan pada isu-isu yang terlibat, sebagian komentator menggambarkan karakteristik dan tantangan Big Data dengan menggunakan "tiga Vs" dari volume, kecepatan dan berbagai (model pertama kali dikembangkan oleh Doug Laney).

Volume adalah tantangan terbesar Big data dan serta kesempatan terbesarnya. Hal ini karena menyimpan, interlinking dan pengolahan sejumlah besar informasi digital menawarkan kemungkinan yang luar biasa untuk berbagai kegiatan. Ini termasuk memprediksi perilaku pelanggan, mendiagnosa penyakit, perencanaan pelayanan kesehatan, dan pemodelan iklim kita. Namun, solusi komputasi tradisional seperti database relasional semakin tidak mampu menangani tugas-tugas tersebut. Kebanyakan solusi perangkat keras komputer tradisional juga tidak scalable untuk proporsi Big Data.

Big kecepatan data yang juga menimbulkan sejumlah isu kunci. Untuk memulai, tingkat di mana data yang mengalir ke sebagian besar organisasi meningkat di luar kapasitas sistem TI mereka untuk menyimpan dan proses. Selain itu, pengguna semakin ingin streaming data yang akan dikirimkan kepada mereka secara real time, dan sering pada perangkat mobile. video online, pelacakan lokasi, augmented reality dan banyak aplikasi lainnya sekarang bergantung pada jumlah besar kecepatan tinggi seperti aliran data, dan bagi banyak perusahaan memberikan mereka terbukti cukup sulit.

Akhirnya, seperti yang sudah disorot, Big Data ditandai dengan ragam, dengan jenis data yang banyak organisasi dipanggil untuk memproses menjadi semakin beragam dan padat. Lewatlah sudah hari-hari ketika pusat data hanya harus memproses dokumen, transaksi keuangan, catatan saham, dan file personil. Hari ini, foto-foto, audio, video, model 3D, kompleks simulasi dan data lokasi semua yang menumpuk di banyak silo data perusahaan. Banyak sumber Big Data ini juga hampir seluruhnya tidak terstruktur, dan karenanya tidak mudah untuk mengkategorikan, biarkan proses saja, dengan teknik komputasi tradisional. Semua ini berarti bahwa Big Data adalah data realitas berantakan, dengan banyak upaya diperlukan dalam kompleks pra-pengolahan dan pembersihan data sebelum analisis yang berarti dapat dilakukan.

MENGHINDARI DATA BUANG

Karena tantangan volume, kecepatan dan variasi, banyak organisasi saat ini memiliki sedikit pilihan selain untuk mengabaikan atau cepat mengeluarkan jumlah yang sangat besar informasi berpotensi sangat berharga. Memang, jika kita berpikir tentang organisasi sebagai makhluk yang mengolah data, maka sebagian besar saat ini bentuk agak primitif hidup. sensor dan sistem IT hanya tidak sampai ke pekerjaan scanning dan menafsirkan lautan luas data di mana mereka berenang. Akibatnya, sebagian besar data yang mengelilingi organisasi saat ini diabaikan. Sebagian besar data yang mereka kumpulkan kemudian tidak diproses, dengan jumlah yang signifikan dari informasi yang berguna melewati langsung melalui mereka sebagai "Data knalpot".

Misalnya, sampai sangat baru-baru ini sebagian besar data yang diambil melalui sistem kartu loyalitas pengecer tidak diproses dengan cara apapun. Dan masih hari ini, hampir semua data video yang diambil oleh rumah sakit selama operasi dihapus dalam beberapa minggu. Ini hampir skandal mengingat bahwa interlinking dan cerdas pertambangan aliran gambar ini bisa meningkatkan hasil pasien baik individu dan perencanaan kesehatan yang lebih luas.

TECHNOLOGIES DATA BIG

Karena masalah yang diangkat oleh volume, kecepatan dan variasi, Big Data membutuhkan solusi teknologi baru. Saat ini memimpin lapangan adalah sebuah proyek open-source dari Apache disebut Hadoop. Ini adalah mengembangkan perpustakaan perangkat lunak untuk dapat diandalkan, scalable, sistem komputasi terdistribusi mampu menangani banjir Big Data, dan menyediakan platform yang layak pertama untuk analisis Big Data. Hadoop sudah digunakan oleh sebagian besar Big Data pelopor. Misalnya, LinkedIn saat ini menggunakan Hadoop untuk menghasilkan lebih dari 100 miliar rekomendasi pribadi setiap minggu.

Apa Hadoop dilakukan adalah untuk mendistribusikan penyimpanan dan pengolahan data set besar di kelompok atau "cluster" dari komputer server menggunakan model pemrograman sederhana. Jumlah server di cluster juga dapat ditingkatkan dengan mudah sebagai persyaratan mendikte, dari mungkin 50 mesin untuk mungkin 2000 atau lebih. Sedangkan tradisional solusi komputasi skala besar bergantung pada hardware server yang mahal dengan toleransi kesalahan yang tinggi, Hadoop mendeteksi dan mengkompensasi kegagalan perangkat keras atau masalah sistem lainnya di tingkat aplikasi. Hal ini memungkinkan tingkat tinggi kontinuitas layanan yang akan disampaikan dari cluster komputer server individu, masing-masing yang mungkin rentan terhadap kegagalan. Pengolahan sejumlah besar data di seluruh besar, biaya lebih rendah didistribusikan infrastruktur komputasi karena itu menjadi proposisi yang layak.

Secara teknis, Hadoop terdiri dari dua elemen kunci. Yang pertama adalah Hadoop Distributed File System (HDFS), yang memungkinkan bandwidth tinggi, penyimpanan berbasis klaster penting untuk komputasi Big Data. Bagian kedua dari Hadoop kemudian kerangka pengolahan data disebut MapReduce. Berdasarkan teknologi pencarian Google, ini mendistribusikan atau "peta" set data yang besar di beberapa server. Masing-masing server ini kemudian melakukan pengolahan pada bagian dari keseluruhan data yang mengaturnya telah dialokasikan, dan dari ini menciptakan ringkasan. Ringkasan dibuat pada setiap server yang kemudian dikumpulkan dalam tahap "Mengurangi" begitu-disebut. Pendekatan ini memungkinkan data mentah yang sangat besar set untuk menjadi cepat pra-diproses dan suling sebelum alat analisis data yang lebih tradisional diterapkan.

Saat ini, banyak pelopor Big Data menyebarkan ekosistem Hadoop bersama sistem TI warisan mereka untuk memungkinkan mereka untuk menggabungkan data lama dan baru dengan cara baru. Namun, dalam waktu, Hadoop mungkin ditakdirkan untuk mengganti banyak data warehouse tradisional dan kaku-terstruktur teknologi database relasional dan menjadi platform dominan untuk berbagai jenis pengolahan data. Informasi lebih lanjut tentang Hadoop dapat ditemukan dalam posting blog ini sangat baik oleh Ravi Kalakota.

Banyak organisasi tidak mungkin untuk memiliki sumber daya dan keahlian untuk menerapkan solusi Hadoop mereka sendiri. Untungnya mereka tidak perlu, seperti solusi cloud yang sudah tersedia. Ditawarkan oleh penyedia termasuk Amazon, NetApp dan Google, ini memungkinkan organisasi dari semua ukuran untuk mulai mendapatkan manfaat dari potensi pengolahan Big Data. Di mana publik Big Data set perlu dimanfaatkan, berjalan di awan juga membuat banyak akal, karena data tidak harus didownload ke sistem organisasi sendiri. Misalnya, Amazon Web Services sudah host banyak set data publik. Ini termasuk banyak medis dan ilmiah repositori Big Data genomik dan lainnya Data Sensus Amerika Serikat dan Jepang, dan.

Melihat lebih jauh ke depan, Big Data akan maju di pesat sebagai kemajuan kecerdasan buatan, dan jenis seperti baru dari kekuatan pemrosesan komputer menjadi tersedia. Misalnya, komputasi kuantum mungkin di masa depan sangat meningkatkan pengolahan Big Data. Quantum komputer menyimpan dan mengolah data menggunakan negara mekanika kuantum, dan akan secara teori unggul dalam pengolahan massively parallel data tidak terstruktur. (Untuk informasi lebih lanjut, silakan lihat bagian komputasi kuantum).

IMPLIKASI DATA BIG

Sementara dataset pertambangan diukur dalam terabyte, petabyte dan bahkan exabyte secara teknis menantang, ia juga menawarkan peluang yang signifikan. Bahkan, tidak banyak tahun maka, teknik Big Data dan teknologi cenderung untuk memungkinkan beberapa jenis tambahan, nilai sekunder dihasilkan dari hampir setiap bagian dari informasi digital yang pernah akan disimpan. IBM menjelaskan "Big Data... Adalah kesempatan untuk menemukan wawasan dalam jenis baru dan muncul dari data, untuk membuat [bisnis] lebih lincah, dan untuk menjawab pertanyaan itu, di masa lalu, berada di luar jangkauan". Atau seperti Oracle memasukkannya ke dalam mereka "Mengintegrasikan untuk Insight" kertas putih, Big Data "memegang janji memberikan perusahaan wawasan lebih menjadi pelanggan mereka, mitra bisnis dan" - termasuk jawaban untuk pertanyaan "mereka tidak mungkin bahkan berpikir untuk bertanya" .

Lebih khusus, dan sebagai O'Reilly Radar berpendapat, Big Data memiliki potensi untuk meningkatkan wawasan analitis, serta memungkinkan penciptaan produk dan layanan baru yang sebelumnya tidak mungkin. Pelopor seperti Google, Amazon dan Facebook telah menunjukkan bagaimana Big Data dapat mengizinkan pengiriman hasil yang sangat personal pencarian, iklan, dan rekomendasi produk. Dalam waktu, Big Data juga dapat membantu petani untuk secara akurat meramalkan cuaca dan panen buruk kegagalan. Pemerintah dapat menggunakan data besar untuk memprediksi dan merencanakan kerusuhan sipil atau pandemi.

Menyadari potensi, pada Mei 2012, Pemerintah AS mengumumkan investasi sebesar $ 200 juta dalam proyek Big Data "untuk lebih meningkatkan alat dan teknik yang diperlukan untuk mengakses, mengatur, dan mengumpulkan penemuan dari volume besar data digital". Kantor Kebijakan Sains dan Teknologi bahkan menyebutnya salah satu investasi publik yang paling penting dalam teknologi sejak munculnya Internet, dengan salah satu tujuan utama yang untuk "mempercepat laju penemuan dalam sains dan teknik".

Sebagai NetApp menjelaskan, perkembangan Big Data dasarnya adalah tentang menciptakan sistem TI baru yang lebih "sistem keterlibatan" bukan hanya silo untuk penyimpanan data. Sudah terlalu lama kita telah terbiasa untuk memasukkan data ke sistem komputer untuk relatif sedikit kembali. Tapi dengan amalgamating dan menganalisis dataset semakin besar, kita bisa mulai mendapatkan nilai lebih dari sistem komputer dari yang kita masukkan ke dalam.

Misalnya, dengan menggunakan teknik Big Data untuk menganalisis 12 terabyte tweet yang ditulis setiap hari, itu sudah menjadi mungkin untuk melakukan real-time analisis sentimen untuk mengetahui bagaimana dunia merasa tentang hal. Seperti layanan memang sudah sekarang ditawarkan secara gratis oleh Sentiment140.com. Tapi ini benar-benar hanya awal, dengan Big Data menawarkan segala macam kemungkinan berpotensi menambah dan meningkatkan layanan yang organisasi berikan kepada pelanggan mereka.

Dalam laporan terbaru tentang Big Data, McKinsey Global Institute memperkirakan bahwa sektor kesehatan AS bisa mencapai US $ 300 miliar efisiensi dan kualitas tabungan setiap tahun dengan memanfaatkan Big Data, sehingga memotong pengeluaran kesehatan oleh sekitar 8 persen. Di seluruh Eropa, mereka juga memperkirakan bahwa menggunakan data besar bisa menghemat setidaknya $ 149.000.000.000 dalam biaya administrasi pemerintahan per tahun. Lebih luas lagi, dalam perusahaan manufaktur, mengintegrasikan data besar di R & D, rekayasa dan produksi dapat secara signifikan mengurangi waktu ke pasar dan meningkatkan kualitas produk.

Sementara Big Data bisa diragukan lagi memberikan segala macam organisasi dengan kemampuan data yang menguntit bahwa banyak mungkin takut, implikasi positif dari Big Data cenderung lebih besar daripada kemungkinan negatif. Misalnya, Big Data dapat meningkatkan keberlanjutan dengan meningkatkan manajemen lalu lintas di kota-kota dan memungkinkan operasi yang lebih cerdas infrastruktur pembangkit listrik.

Akibatnya, menggunakan Big Data, kita bisa mulai untuk menjalankan dunia dan mengalokasikan sumber daya berdasarkan apa yang benar-benar kita butuhkan, bukan apa yang kita membabi buta kira orang mungkin dalam waktu dekat permintaan di masa mendatang. Atau dengan kata lain, semakin kita dapat mengetahui dan belajar tentang kegiatan manusia, semakin sedikit kita perlu terus memproduksi dan mengangkut barang untuk mengisi gerai ritel dengan hal-hal yang orang tidak mungkin benar-benar ingin. Meskipun saat ini perkembangan komputasi perusahaan, gerakan Big Data mungkin karena menemukan bahwa ia memiliki banyak sekali pendukung di tahun-tahun dan dekade ke depan. . .


EmoticonEmoticon