Inovasi dalam pengelolaan data perusahaan dan memahami apa itu data lake

Halo teman baik TanyaTekno, jumpa kembali kita di artikel ini. Di artikel ini saya akan membicarakan Inovasi dalam pengelolaan data perusahaan dan memahami apa itu data lake

Gambar besar: Mari jujur. Jika Anda diminta untuk memilih topik yang tampaknya membosankan dari daftar teknologi baru, tidak diragukan lagi bahwa sesuatu yang disebut “manajemen data perusahaan” akan menjadi salah satu pilihan terbaik Anda. Lagi pula, itu tidak benar-benar berteriak seksi atau seksi. Namun, kemampuan untuk memperoleh wawasan bisnis yang berarti dari berbagai sumber data yang berbeda secara tepat waktu dan aman telah terbukti penting bagi organisasi dari semua ukuran.

Pertimbangkan fakta bahwa analitik yang diberdayakan AI dapat dimanfaatkan untuk menghasilkan informasi, dan rendering berbasis cloud yang telah dikonfigurasi sebelumnya dapat secara otomatis menangani pekerjaan persiapan di belakang layar yang berantakan dan sulit yang diperlukan untuk mendapatkan wawasan tersebut, dan segalanya mulai mendapatkan lebih banyak menarik.

Cloudera adalah perusahaan perangkat lunak yang didedikasikan untuk menyediakan sistem manajemen data perusahaan yang dimulai sebagai perusahaan perangkat lunak sumber terbuka yang terutama didasarkan pada alat analitik data besar Apache Hadoop dan bergabung beberapa tahun lalu dengan Hortonworks, perusahaan lain yang berfokus pada Hadoop.

Cloudera umumnya dipandang sebagai pemimpin dalam aplikasi manajemen data dalam skala besar, terus memberikan kontribusi penting bagi komunitas open source dan telah menjadi pelopor dalam upayanya untuk menciptakan platform yang sepenuhnya terbuka di data lake – tren terpanas dalam big data.

Mereka baru saja mengumumkan solusi CDP One SaaS baru yang seharusnya menawarkan semua kemampuan ini. Yang terpenting, karena cara pembuatannya, ia harus membuka Platform Data Lanjutan (CDP) mereka ke berbagai perusahaan dan individu yang lebih luas di dalam organisasi tersebut.

Bagi mereka yang mungkin tidak tahu apa itu data lake, anggap saja sebagai kombinasi dari data lake, yang terutama digunakan dengan data tidak terstruktur dan semi-terstruktur, seperti teks, audio, video, dan gambar, dan data lake. , yang umumnya digunakan dengan data terstruktur tradisional. Daftar berbasis tabel untuk angka, nilai, dll.

Data lake pada dasarnya menggabungkan yang terbaik dari dua dunia ini dengan mengaktifkan jenis kueri terstruktur yang secara tradisional hanya dilayani dengan gudang data menjadi data tidak terstruktur di data lake. Selain itu, ini memungkinkan organisasi untuk melakukan analisis di kedua jenis data secara bersamaan, yang telah terbukti sangat berguna untuk pembelajaran mesin dan aplikasi berbasis AI canggih lainnya.

Meskipun ini terdengar bagus secara teori, kenyataannya sangat sulit untuk dilakukan. Memang, mengekstraksi wawasan bisnis yang bermakna dari kumpulan data yang beragam ini adalah tugas yang biasanya terbatas pada dunia ilmuwan data yang langka dan keahlian khusus yang mereka miliki. Orang-orang ini sangat diminati saat ini, yang membuat mereka sulit ditemukan oleh banyak perusahaan dan sangat mahal untuk merekrut dan mempertahankannya. Selain itu, alat yang diperlukan untuk melakukan pekerjaan ini – seperti platform data Cloudera saat ini – meskipun sangat kuat, secara teknis tidak untuk orang yang lemah hati.

Secara praktis, ini berarti bahwa sementara organisasi sekarang memiliki akses yang lebih besar ke kumpulan data yang berpotensi menarik dan lebih besar daripada sebelumnya dan alat untuk memanfaatkan sepenuhnya data ini semakin berkembang, perusahaan yang lebih besar Hanya yang paling maju secara teknis yang pernah ada dapat mengambil keuntungan dari kombinasi yang sangat kuat ini. Semakin banyak perusahaan dan pasar pada umumnya membutuhkan sesuatu yang dapat membawa alat manajemen data dan analitik canggih semacam ini ke audiens yang lebih besar – maka peluncuran CDP One. Ini adalah upaya Cloudera untuk membawa jenis kemampuan dan alat manajemen data dari penawaran CDP Private Cloud lokal yang ada dan penawaran CDP Public Cloud ke audiens yang lebih luas.

Sebagian masalahnya adalah ini tidak mudah. Manajemen data perusahaan tetap menjadi topik misteri bagi banyak orang karena jumlah pekerjaan dan keahlian yang dibutuhkan untuk jenis proyek ini. Pertama, Anda harus mengakses dan mengimpor atau “mencerna” kumpulan data berbeda yang ingin Anda kerjakan. Seperti banyak aspek data besar, mencerna data adalah sesuatu yang tampaknya mudah dalam teori tetapi ternyata menjadi tantangan dalam praktiknya.

Misalnya, karena data dapat berasal dari kombinasi sumber daya cloud publik, database lokal, output aplikasi SaaS, input streaming real-time, dan lainnya, mungkin sulit untuk menggabungkan semua elemen yang ingin dianalisis oleh organisasi. Selain itu, ternyata format tabel di mana beberapa jenis data disimpan adalah milik sendiri, yang meningkatkan kerumitan dalam proses asimilasi. Untuk membantu hal ini, Cloudera baru-baru ini menambahkan dukungan untuk format spreadsheet Apache Iceberg open source ke CDP, contoh lain dari upaya perusahaan untuk mendukung standar terbuka.

Selain itu, data seringkali perlu disiapkan dan/atau dimodifikasi agar siap untuk diproses dan dianalisis. Untuk melakukan ini, berbagai sumber daya komputasi, penyimpanan, dan jaringan berbasis cloud mungkin perlu dikonfigurasi untuk menangani pekerjaan ini. Selain itu, model ML atau AI mungkin perlu diunggah atau dimodifikasi untuk memulai pekerjaan analisis. Terakhir, di atas semua ini, kebutuhan untuk memastikan bahwa tidak ada data yang dilepaskan secara tidak sengaja, kerentanan tidak dibuat, dll. dalam proses mengkonfigurasi dan mengaktifkan semua sumber daya ini. Masing-masing dikenal sebagai DevOps, MLOps, dan SecOps, ketiga kelompok penting dari fungsi operasional ini dapat menjadi bagian yang paling memakan waktu dan sumber daya dari proyek analisis data besar. Menyadari tantangan ini, salah satu manfaat utama CDP One adalah apa yang disebutnya Cloudera Zero Ops, yang berarti ia menangani semua pekerjaan yang sama, membuat transisi ke bagian analisis data penting dari proses menjadi lebih mudah dan lebih cepat.

Alat analisis data itu sendiri bisa sedikit menakutkan bagi semua orang kecuali ilmuwan data, pengembang, atau analis intelijen bisnis yang lebih maju secara teknis. Dengan demikian, Cloudera mengambil langkah menuju meningkatnya minat pada alat kode rendah dan tanpa kode untuk penguraian dan visualisasi. Tujuannya adalah untuk memungkinkan pengguna bisnis yang canggih kemampuan untuk memanfaatkan manajemen data berbasis cloud dan alat analisis dari CDP ke dalam alur kerja reguler mereka.

Faktanya, kita telah berbicara tentang manfaat analitik data besar selama satu dekade atau lebih sekarang. Apa yang menjadi jelas selama tahun-tahun berikutnya adalah bahwa mencapai hasil yang bermanfaat dari upaya ini jauh lebih sulit daripada yang disadari kebanyakan perusahaan (dan sebagian besar perusahaan dan vendor teknologi mau mengakuinya). Dengan CDP One, Cloudera ingin mengambil langkah kuat untuk mengatasi kesenjangan ini. Mereka juga memberikan peluang yang berpotensi menarik untuk memanfaatkan wawasan penting dari kumpulan data besar ke audiens yang lebih luas.

Bob O’Donnell adalah pendiri dan kepala analis TECHnalysis Research, LLC, sebuah perusahaan konsultan teknologi yang menyediakan layanan konsultasi strategis dan riset pasar untuk industri teknologi dan komunitas keuangan profesional. Anda dapat mengikutinya di Twitter penyematan tweet.

Demikianlah uraianmengenai Inovasi dalam pengelolaan data perusahaan dan memahami apa itu data lake

. Jangan Lupa untuk
berbagi artikel ini ya sobat.