Cloudera, işletim sistemi taahhüdünü göstermek için Apache Iceberg tablolarını benimsiyor • Kayıt


Bulut veri gölü satıcısı Cloudera, Apache Iceberg’in veri platformunda genel kullanıma sunulduğunu duyurdu.

Apache Software Foundation aracılığıyla geliştirilen Iceberg, Spark, Trino, Flink, Presto, Hive ve Impala gibi sorgu motorlarını desteklerken büyük veri iş yüklerinde yüksek performans için tasarlanmış bir açık tablo formatı sunar.

Iceberg, iki yıl sonra 2018’de Apache vakfına bağışlanmadan önce bir Netflix projesi olarak başladı.

İçinde bir blog, Hadoop tabanlı sistemlerde kökleri olan veri platformu satıcısı Cloudera, amacının veri gölleri, hem yapılandırılmış hem de yapılandırılmamış verileri destekleyen havuzlar üzerinde çok işlevli analitiklere izin vermek olduğunu söyledi. Göl evi konseptinin tanıtılması, kullanıcıları veri gölü sistemlerinde analitik ve BI kullanmaya teşvik ediyor.

“Ancak, birincil motorlara ve çoğu zaman tek satıcılara bağlı tablo biçimleri tarafından yönlendirilmeye devam ediyor. Cloudera, diğer yandan şirketler, veri gölünde yüksek düzeyde ölçeklenebilir ve esnek analitik motorlar ve hizmetler talep etmeye devam etti, ”dedi Cloudera.

Iceberg’in Cloudera Veri Platformunda (CDP) devreye alınması Cloudera Veri Ambarı, Cloudera Veri Mühendisliği ve Cloudera Machine Learning’i içerir. Cloudera, “Bu araçlar, analistleri ve veri bilimcilerini, seçtikleri araçlar ve analitik motorlarla aynı veriler üzerinde kolayca işbirliği yapma konusunda güçlendiriyor” dedi.

Avantajlar, tek bir komut olarak şema ve bölüm değişiklikleri için destek, adli görünürlük ve mevzuata uygunluk yetenekleri için zaman içinde belirli bir nokta sorgularıyla zaman yolculuğu ve uçtan uca veri yaşam döngüsü ihtiyaçlarını sağlamak için eşzamanlı çok işlevli analitiği içerecek şekilde ayarlanmıştır. Cloudera, performansın ayrıca çok büyük ölçekli veri kümelerini işlemek için agresif bölümleme ile iyileştirileceğini söyledi.

Açık kaynak teknisyenlerinin mücadelesi

Ancak Cloudera, açık kaynak yolunu taahhüt eden tek veri gecikmesi veya göl evi tedarikçisi değil.

Bir Apache Spark satıcısı olarak ortaya çıkan Databricks, depolama biçimi katmanını da açık kaynak topluluğuna bağışladı. En son yineleme olan Delta Lake 2.0, geçen hafta Veri ve Yapay Zeka Zirvesi’nde duyuruldu.

“Delta Lake 2.0, tüm Delta Lake kullanıcılarına benzersiz bir sorgu performansı getirecek ve herkesin açık standartlarda yüksek performanslı bir veri göl evi inşa etmesine olanak sağlayacak. Bu katkı ile Databricks müşterileri ve açık kaynak topluluğu, Delta Lake 2.0’ın tam işlevselliğinden ve gelişmiş performansından yararlanacak,” dedi Databricks.

Ile konuşmak Kayıt, Databricks Pazarlama Başkan Yardımcısı Joel Minnick şunları söyledi: “Delta Lake açık kaynaklı hale geldikten ve Databricks platformunun içinde oluşturmaya devam ettiğimiz birçok performans geliştirmesi ve özelliği oldu. Her zaman özünde açık kaynaklı bir şirket olduk ve bu geliştirmeleri yapıyor olsaydık, bunları gerçekten topluluğa geri verebilmeyi istiyorduk.”

Minnick, geliştirmelerin “işlerin veri işleme, veri ambarı tarafında” olduğunu söyledi.

Delta Gölü 2.0 (önceki değeri) Linux Vakfı’na bağışlanan bu hafta. ®


Kaynak : https://go.theregister.com/feed/www.theregister.com/2022/07/01/cloudera_adopts_apache_iceberg_tables/

Yorum yapın