Büyük Veri, Dağıtılmış Depolama ve Hadoop

Herkese merhaba,

Bu yazımızda Big Data, Distributed Storage ve Hadoop nedir onu anlamaya çalışacağız.

Bunu anlamadan önce Data’nın ne olduğunu anlamalıyız.

Veriler, genellikle özel bir şekilde biçimlendirilmiş farklı bilgi parçalarıdır. Tüm yazılımlar iki genel kategoriye ayrılır: veriler ve programlar. Programlar, verileri işlemek için yönergeler topluluğudur. Temel veri türleri arasında karakter dizileri, tamsayılar, ondalık sayılar, resimler, ses, video ve diğer multimedya türleri bulunur. VEYA
Elektrik sinyalleri şeklinde depolanıp iletilebilen ve manyetik, optik veya mekanik kayıt ortamlarına kaydedilen, bilgisayar tarafından üzerinde işlem yapılan niceliklere, karakterlere veya sembollere Veri denir.
Şimdi Büyük Verinin ne olduğunu anlamaya doğru ilerliyoruz?

Önerilen makale: kadın girişimciler hakkında bilgi almak ve güncel girişimcilik haberlerine ulaşmak almak için ilgili sayfayı ziyaret edebilirsiniz.

Büyük Veri de veridir, ancak çok büyük bir boyuta sahiptir. Büyük Veri, hacim olarak çok büyük olan ancak zamanla katlanarak büyüyen bir veri koleksiyonunu tanımlamak için kullanılan bir terimdir. Kısacası, bu tür veriler o kadar büyük ve karmaşıktır ki, geleneksel veri yönetimi araçlarının hiçbiri onu verimli bir şekilde saklayamaz veya işleyemez.
Büyük veri, geleneksel veri işleme uygulama yazılımı tarafından ele alınamayacak kadar büyük veya karmaşık olan veri kümelerini analiz etme, bunlardan sistematik olarak bilgi çıkarma veya bunlarla başka şekilde ilgilenme yollarını ele alan bir alandır. Büyük veri örnekleri: -İstatistik, sosyal medya sitesi Facebook’un veritabanlarına her gün 500+ terabayt yeni verinin alındığını gösteriyor. Bu veriler ağırlıklı olarak fotoğraf ve video yüklemeleri, mesaj alışverişleri, yorum yapma vb.
Büyük Veri Türleri
Yapısal Veri, kendisine ayrılmış bir veri modeline sahiptir, Ayrıca iyi tanımlanmış bir yapıya sahiptir, tutarlı bir düzen izler ve bir kişi veya bilgisayar tarafından kolayca erişilip kullanılabilecek şekilde tasarlanmıştır. Yapılandırılmış veriler genellikle iyi tanımlanmış sütunlarda ve ayrıca Veritabanlarında saklanır.
Örnek: Veritabanı Yönetim Sistemleri(DBMS)

Yarı Yapılandırılmış Veriler, Yapılandırılmış Verilerin başka bir biçimi olarak düşünülebilir. Yapılandırılmış Verilerin birkaç özelliğini devralır, ancak bu tür verilerin büyük bir kısmı kesin bir yapıya sahip değildir ve ayrıca RDBMS gibi veri modellerinin resmi yapısına uymaz.
Örnek: Virgülle Ayrılmış Değerler(CSV) Dosyası.

Yapılandırılmamış Veri, veri modellerinin biçimsel yapısal kurallarına uymayan ve bir yapıya sahip olmayan tamamen farklı bir veri türüdür. Tutarlı bir formatı bile yok ve sürekli değiştiği görüldü. Ancak, nadiren veri ve zamanla ilgili bilgilere sahip olabilir.
Örnek: Ses Dosyaları, Görüntüler vb.

Büyük Veri Özellikleri (4 V BÜYÜK VERİ):
1.Veri Hacmi

Veri miktarı önemlidir. Büyük verilerle, yüksek hacimli, düşük yoğunluklu, yapılandırılmamış verileri işlemeniz gerekir. Bu, Twitter veri akışları, bir web sayfasındaki veya mobil uygulamadaki tıklama akışları veya sensör özellikli ekipman gibi değeri bilinmeyen veriler olabilir. Bazı kuruluşlar için bu, onlarca terabayt veri olabilir. Diğerleri için yüzlerce petabayt olabilir.

2.Çeşitlilik — Büyük Verinin bir sonraki yönü, çeşitliliğidir.

Çeşitlilik, heterojen kaynakları ve hem yapılandırılmış hem de yapılandırılmamış verilerin doğasını ifade eder. Daha önceki günlerde, elektronik tablolar ve veritabanları, uygulamaların çoğu tarafından dikkate alınan tek veri kaynağıydı. Günümüzde analiz uygulamalarında e-posta, fotoğraf, video, izleme cihazı, PDF, ses vb. şeklindeki veriler de dikkate alınmaktadır. Bu yapılandırılmamış veri çeşitliliği, verilerin depolanması, madenciliği ve analizi için belirli sorunlar ortaya çıkarır.

3.Hız — “Hız” terimi, veri oluşturma hızını ifade eder. Verilerin talepleri karşılamak için ne kadar hızlı üretildiği ve işlendiği, verilerdeki gerçek potansiyeli belirler.

Büyük Veri Hızı, verilerin iş süreçleri, uygulama günlükleri, ağlar ve sosyal medya siteleri, sensörler, Mobil cihazlar vb.

4.Değişkenlik — Bu, veriler tarafından zaman zaman gösterilebilen tutarsızlığı ifade eder, bu nedenle verileri etkin bir şekilde ele alma ve yönetme sürecini engeller.

Büyük Veri İşlemenin Faydaları
Büyük Veriyi işleme yeteneği, aşağıdakiler gibi birçok avantaj sağlar:

İşletmeler karar alırken dış istihbarattan faydalanabilir
Arama motorlarından ve facebook, twitter gibi sitelerden sosyal verilere erişim, kuruluşların iş stratejilerinde ince ayar yapmalarını sağlıyor.
Geliştirilmiş müşteri hizmetleri.
*Vaka Analizi :-

Netflix, müşterileri için çevrimiçi isteğe bağlı video akışı konusunda uzmanlaşmış en sevilen Amerikan eğlence şirketidir. Netflix, Büyük Veri ile müşterilerinin tam olarak neyi izlemekten keyif alacaklarını tahmin edebilme konusunda kararlı. Bu nedenle, Büyük Veri analitiği, bu amaca hizmet etmek için tasarlanmış “tavsiye motorunu” ateşleyen yakıttır. Netflix’in öneri motorları ve yeni içerik kararları, müşterilerin hangi başlıkları izlediği, oynatmanın ne sıklıkta durdurulduğu, derecelendirmelerin verildiği gibi veri noktalarından besleniyor. Şirketin veri yapısı, diğer birçok geleneksel iş zekasıyla birlikte Hadoop, Hive ve Pig’i içeriyor.

Artık dağıtılmış depolamayı anlıyoruz.

Dağıtılmış Depolama

Dağıtılmış bir depolama sistemi, verileri birden çok fiziksel sunucuya ve genellikle birden fazla veri merkezine bölebilen altyapıdır. Tipik olarak, veri senkronizasyonu ve küme düğümleri arasında koordinasyon için bir mekanizma ile bir depolama birimleri kümesi biçimini alır. Dağıtılmış bir nesne deposu, normalde bir veya az sayıda fiziksel diskten oluşan birçok bağımsız nesne deposundan oluşur. Bu nesne depoları, bilgi işlem düğümleri olabilecek veya yalnızca depolama hizmetleri sağlamak için yapılandırılmış ayrı sunucular olabilecek ticari sunucu donanımı üzerinde çalışır. Bu nedenle, donanım nispeten ucuzdur. Her bir sanal makinenin diski, her birinin boyutu genellikle birkaç megabayt olan çok sayıda küçük bölüme ayrılır ve her bölüm, farklı nesne depolarında birkaç kez (genellikle üç) depolanır. Her segmentin her bir kopyasına replika denir. Sistem başarısızlığı tolere edecek şekilde tasarlanmıştır. Nispeten ucuz donanım kullanıldığından, bireysel nesne depolarının arızalanması nispeten sık görülür; gerçekten de, yeterli nesne deposu ile başarısızlık kaçınılmaz hale gelir. Ancak, verilerin kaybolması için her kopyanın kullanılamaz hale gelmesi gerekeceğinden, tek tek nesne depolarının arızalanması, depolama mühendislerinin çağrılmasını gerektiren bir “acil durum” değil, rutin bakımla halledilen bir şeydir. Performans belirgin bir şekilde düşmez ve yetersiz kopyalanan veriler kademeli olarak ve otomatik olarak mevcut kopyalardan yeniden çoğaltılır. Arızalı nesne deposu, yedek bir RAID diskinde olduğu gibi değiştirildiğinde gerçekleştirilecek bir “yeniden gümüşleme” işlemi yoktur.

Dağıtılmış depolama sistemlerinin çeşitli avantajları vardır:

Ölçeklenebilirlik — depolamayı dağıtmak için birincil motivasyon, kümeye daha fazla depolama düğümü ekleyerek daha fazla depolama alanı ekleyerek yatay olarak ölçeklendirmektir.
Yedeklilik — dağıtılmış depolama sistemleri, yüksek kullanılabilirlik, yedekleme ve olağanüstü durum kurtarma amaçları için aynı verilerin birden fazla kopyasını depolayabilir.
Maliyet — dağıtılmış depolama, büyük hacimli verileri düşük maliyetle depolamak için daha ucuz, emtia donanımının kullanılmasını mümkün kılar.
Performans — Dağıtılmış depolama, bazı senaryolarda tek bir sunucudan daha iyi performans sunabilir, örneğin, verileri tüketicilerine daha yakın depolayabilir veya büyük dosyalara büyük ölçüde paralel erişim sağlayabilir.
Hadoop nedir?
Hadoop, ticari donanım kümelerinde veri depolamak ve uygulamaları çalıştırmak için kullanılan açık kaynaklı bir yazılım çerçevesidir. Her türlü veri için büyük depolama, muazzam işlem gücü ve neredeyse sınırsız eşzamanlı görev veya işi yönetme yeteneği sağlar.

Apache Hadoop’un çekirdeği, Hadoop Dağıtılmış Dosya Sistemi (HDFS) olarak bilinen bir depolama bölümünden ve bir MapReduce programlama modeli olan bir işleme bölümünden oluşur. Hadoop, dosyaları büyük bloklara böler ve bir kümedeki düğümler arasında dağıtır. Ardından, verileri paralel olarak işlemek için paketlenmiş kodu düğümlere aktarır. Bu yaklaşım, düğümlerin erişebildikleri verileri manipüle ettiği veri konumundan yararlanır. Bu, veri setinin, hesaplama ve verilerin yüksek hızlı ağ üzerinden dağıtıldığı paralel bir dosya sistemine dayanan daha geleneksel bir süper bilgisayar mimarisine göre daha hızlı ve daha verimli bir şekilde işlenmesini sağlar.