Big Data Nedir? Kullanım Alanları Nelerdir?
Big data nedir? Big data uygulamaları nelerdir? Son dönemde neden bu kadar fazla duymaya başladık? Big data kullanan şirketler hangileri? Büyük veri hakkında merak edilen her şey.
Big data Tükçe karşılığıyla büyük veri, geleneksel veri işleme uygulama yazılımının inceleyebilmesi için çok büyük veya karmaşık veri kümelerini ifade etmek için kullanılan bir terimdir. Pek çok vakanın bulunduğu (sıralar) veriler daha fazla istatistiksel güç sağlarken, daha yüksek karmaşıklığa sahip veriler daha yüksek bir yanlış keşif oranına yol açabilir. Big data çalışmalarında en sık karşılaşılan zorlukları arasında veriyi toplama, veri saklama, veri analizi, arama, paylaşma, aktarma, görselleştirme, sorgulama, güncelleme, bilgi gizliliği ve veri kaynağı sayılabilir. Büyük veri başlangıçta üç ana kavramla ilişkilendirilmektedir: hacim (miktar), çeşitlilik (bilgi türleri) ve hız sayılabilir. Bnunla birlikte büyük verilerle ilişkilendirilen diğer kavramlar doğruluk (yani, verilerde ne kadar gürültü olduğu) ve değerdir.
Veri kümeleri artan bir hızla büyüyor, çünkü mobil cihazlar, anten yazılım kayıtları, kameralar, mikrofonlar, radyo frekansı tanımlama okuyucuları gibi cihazların sayısız bilgi algış verişiyle giderek daha fazla bilgi depolanıyor. Dünyanın kişi başına bilgi depolama kapasitesi, 1980’lerden bu yana her 40 ayda bir kabaca iki katına çıktı, 2012’den itibaren her gün 2,5 exabayt (2,5 x 1018) veri üretildi. Bir IDC rapor tahminine dayanarak, küresel veri hacmi 2013-2020 arasında 4,4 zettabayttan 44 zettabayt’a katlanarak büyüyecek. 2025 itibariyle, IDC 163 zettabayt veri olacağını öngörüyor. Büyük işletmeler için bir soru, kimin tüm organizasyonu etkileyen büyük veri girişimlerine sahip olması gerektiğini belirlemektir. GÜNDEM
“Big data” teriminin şu andaki kullanımı, öngörüsel analitik, kullanıcı davranışı analitiği veya veriden değer elde eden ve nadiren belirli bir veri büyüklüğüne değer katan diğer bazı gelişmiş veri analiz yöntemlerinin kullanılmasına gönderme yapmaktadır. İnsanlık tarihinin hiç bir döneminde elimizde bu kadar geniş veriler bulunmadı. Veri setlerinin analizi, “iş dünyası trendlerini tespit etmek, hastalıkları önlemek,” Suçla mücadele vb. ” Bilim adamları, şirket yöneticileri, tıp, medya, devlet politikaları, , finans, kentsel bilişim, akıllı şehirler, işletme bilişimi gibi alanlarda geniş veri setleri ile düzenli çalışırken, sınıflandırırken ve yorumlarken zorluklar yaşamaktadır.
İlişkisel veritabanı yönetim sistemleri, masaüstü istatistikleri ve verileri görselleştirmek için kullanılan yazılım paketleri çoğu zaman büyük verilerin ele alınmasında zorluk çeker. Bu çalışma “onlarca, yüzlerce hatta binlerce sunucuda çalışan büyük ölçüde paralel yazılım” gerektirebilir. “Büyük veri” olarak nitelendirilen şey, kullanıcıların yeteneklerine ve araçlarına bağlı olarak değişiklik gösterir ve genişleyen yetenekler, büyük verileri hareketli bir hedef haline getirir. “Bazı kuruluşlar için, ilk kez yüzlerce gigabayt verinin karşı karşıya kalması, veri yönetimi seçeneklerini yeniden gözden geçirme ihtiyacını tetikleyebilir. Diğerleri için, veri boyutu önemli bir husus haline gelmeden önce onlarca veya yüzlerce terabayt alabilir.
Big data ilke kez 1990 yılında ilk kez kullanılıyor ve bilim fonları terimin popülerleşmesi için John Mashey’e kredi veriyor. Büyük veri genellikle, yaygın olarak kullanılan yazılım araçlarının, tolere edilebilir geçen bir süre içinde verileri yakalama, iyileştirme, yönetme ve işleme kabiliyetinin ötesinde veri kümelerini içermektedir. Büyük veri felsefesi, yapılandırılmamış, yarı yapılandırılmış ve yapılandırılmış verileri kapsar, ancak ana odak yapılandırılmamış veriler üzerinedir. Big data “boyutu”, 2012’den itibaren birkaç düzine terabayttan birçok exabyte’a kadar değişen sürekli bir alandır. Big data, farklı, karmaşık ve çok büyük ölçekli veri kümelerinden gelen görüşleri ortaya çıkarmak için yeni entegrasyon biçimlerine sahip bir dizi tekniği ve teknolojiyi gerektirir.
CERN ve diğer fizik deneyleri, on yıllardır büyük veri kümeleri toplamış, genellikle şu anki “büyük veri” hareketiyle kastedilen meta haritası düşürme mimarileri yerine yüksek performanslı bilgi işlem (süper bilgisayarlar) ile analiz edilmiştir.
2004’te Google, benzer bir mimariyi kullanan MapReduce adlı bir işlem hakkında bir makale yayınladı. MapReduce konsepti paralel bir işlem modeli sunar ve büyük miktarda veriyi işlemek için ilgili bir uygulama yayınlandı. MapReduce ile sorgular paralel düğümler arasında bölünür ve dağıtılır ve paralel olarak işlenir (Harita adımı). Daha sonra sonuçlar toplanır ve iletilir (Küçültme adımı). Çerçeve çok başarılıydı, bu yüzden diğerleri algoritmayı kopyalamak istedi. Bu nedenle, MapReduce çerçevesinin bir uygulaması Hadoop adlı bir Apache açık kaynaklı proje tarafından kabul edildi. Apache Spark, 2012 yılında MapReduce paradigmasındaki sınırlamalara cevap olarak geliştirilmiştir, çünkü birçok işlem yapma kabiliyeti vardır (sadece harita izleyerek azaltma ile değil).
MIKE2.0, “Büyük Veri Çözümü Sunumu” başlıklı bir makalede tanımlanan büyük veri sonuçları nedeniyle revizyonlara duyulan ihtiyacı kabul eden bilgi yönetimine açık bir yaklaşımdır. Metodoloji, veri kaynaklarının faydalı permütasyonları, karşılıklı ilişkilerde karmaşıklık ve bireysel kayıtları silmede (veya değiştirmede) zorlukla ilgili olarak büyük verilerin ele alınmasını ele almaktadır.
2012 çalışmaları, çok katmanlı bir mimarinin, büyük verilerin sunduğu sorunları ele almak için bir seçenek olduğunu göstermiştir. Dağıtılmış bir paralel mimari, verileri birden çok sunucuya dağıtır; Bu paralel uygulama ortamları, veri işleme hızlarını önemli ölçüde geliştirebilir. Bu tür mimari, MapReduce ve Hadoop çerçevelerinin kullanımını uygulayan paralel bir DBMS’ye veri ekler. Bu tür bir çerçeve, bir ön uç uygulama sunucusu kullanarak işlem gücünü son kullanıcıya şeffaf hale getirir.
Veri gölü, bir kurumun odağını merkezi kontrolden, değişen bilgi yönetimi dinamiklerini yanıtlamak için ortak bir modele kaydırmasına izin veriyor. Bu, verilerin veri gölüne hızlı bir şekilde ayrılmasını sağlayarak genel gider süresini azaltır.
Big Data Kullanım Alanları
Çin
Entegre Ortak İşlemler Platformu halk tarafından, özellikle Uygurları izlemek için hükümet tarafından kullanılmaktadır. DNA örnekleri de dahil olmak üzere biyometri, serbest fiziksel bir program olsa da toplanır.
Hindistan
BJP’nin 2014 Hindistan Genel Seçimini kazanması için büyük veri analizi kullanıldı. Hindistan hükümeti, Hindistan seçmenlerinin hükümet eylemine nasıl cevap verdiğini ve politika artırma fikirlerini belirlemek için big data merkezli sayısız teknik kullanmaktadır.
İsrail
Sulama düzenlemesine yardımcı olmak için Agro Web Lab isimli kamu iştiraki tarafından büyük bir veri uygulaması tasarlandı. Kişiselleştirilmiş diyabetik tedaviler GlucoMe’in big data analizi kullanılarak geliştirilmeye çalışılıyor.
İngiltere
Kamu hizmetlerinde büyük verilerin kullanımına örnekler:
Reçeteyle satılan ilaçlar hakkındaki veriler tutuldu böylece, her reçetenin orijini, yerini ve zamanını birbirine bağlayarak, bir araştırma birimi, herhangi bir ilacın salınımı ile Ulusal Sağlık ve Bakım Mükemmelliği Enstitüsü’nün İngiltere çapında uyarlanması arasındaki önemli gecikme örneklenebildi. Bu, yeni veya en güncel ilaçların genel hastaya filtre uygulamak için biraz zaman aldığını göstermektedir.
Amerika Birleşik Devletleri
2012 yılında, Obama yönetimi, hükümetin karşılaştığı önemli sorunları ele almak için ne kadar büyük verilerin kullanılabileceğini araştırmak için Büyük Veri Araştırma ve Geliştirme Girişimi’ni açıkladı. Girişim altı bölüme yayılmış 84 farklı büyük veri programından oluşuyor. Büyük veri analizi Barack Obama’nın 2012’de yeniden seçilmesi için yürüttüğü kampanyasında etkin bir rol oynadı.
Bilindiği üzere, Amerika Birleşik Devletleri Federal Hükümeti, dünyanın en güçlü on süper bilgisayarından beşine sahiptir. Utah Veri Merkezi, Amerika Birleşik Devletleri Ulusal Güvenlik Ajansı tarafından inşa edildi. Tamamlandığında, tesis NSA tarafından İnternet üzerinden toplanan büyük miktarda bilgiyi idare edebilecek. Kesin depolama alanı miktarı bilinmemekle birlikte, daha yeni kaynaklar bunun birkaç exabyte için olacağını iddia ediyor. Bu, toplanan verilerin anonimliğine ilişkin güvenlik kaygıları yarattı.
Big Data Perakende Uygulamaları
Walmart, her saat 1 milyondan fazla müşteri işlemiyle ilgilenmekte ve 2,5 Petabayt (2560 terabayt) veri içerdiği tahmin edilen veritabanlarına aktarılmaktadır bu sayı ABD Kongre Kütüphanesi’ndeki tüm kitaplarda yer alan bilgilerin neredeyse167 katıdır.
Windermere Real Estate, yeni ev alıcılarının, günün çeşitli zamanlarında işe ve işten tipik sürüş sürelerini belirlemelerine yardımcı olmak için yaklaşık 100 milyon sürücünün konum bilgisini kullanır.
Bilimsel Araştırmalar
Büyük Hadron Çarpıştırıcısı deneyleri saniyede 40 milyon kez veri sağlayan yaklaşık 150 milyon sensörden oluşmaktadır. Saniyede yaklaşık 600 milyon çarpışma yaşanan bu devasa tesisde ortaya çıkan veri tam anlamıyla big data tanımına uymaktadır. Bu bilgilerin sınıflandırılması, yorumlanması ve aralarında yer alan korelasyonun çözülmesi için big data odaklı çalışılmaktadır.
Sloan Dijital Gökyüzü Araştırması (SDSS), 2000 yılında astronomik verileri toplamaya başladığında, ilk birkaç haftasında daha önce astronomi tarihinde toplanan tüm verilerden daha fazla toplandı. Gecelik yaklaşık 200 GB hızında devam eden SDSS, 140 terabayttan fazla bilgi biriktirdi. SDSS’nin halefi Büyük Sinoptik Anket Teleskopu 2020’de çevrimiçi olduğunda, tasarımcıları her beş günde bir bu miktarda veri elde etmelerini bekliyorlar.
İnsan genomunun kodunun çözülmesi başlangıçta 10 yıl sürdü; şimdi bir günden daha kısa sürede elde edilebilir. DNA sekanslayıcıları, sekanslama maliyetini, son 10 yılda 10.000’e bölerek Moore Yasası’nın öngördüğü maliyetten 100 kat daha kolay hale getirdi.
NASA İklim Simülasyon Merkezi (NCCS), 32 petabayt iklim gözlemi ve simülasyonu depolar. Google’ın DNAStack’ı, hastalıkları ve diğer tıbbi kusurları tanımlamak için dünyanın dört bir yanından genetik veri DNA örnekleri derler ve düzenler. Bu hızlı ve kesin hesaplamalar, DNA ile çalışan sayısız bilim ve biyoloji uzmanından biri tarafından yapılabilecek “sürtünme noktalarını” veya insan hatalarını ortadan kaldıracaktır. Google Genomics’in bir parçası olan DNAStack, bilim adamlarının Google’ın arama sunucusundaki kaynaklardan en geniş örneklerini kullanmalarını, genellikle yıllarca sürecek sosyal denemeleri anında erişip kullanabilmelerini sağlayacaktır.
Big Data Spor Uygulamaları
Spor sensörleri kullanarak, rakiplerin antrenmanını ve anlayışını anlayabilmek için big data kullanılabilir. Büyük veri analizlerini kullanarak müsabaka başlamadan skoru ve kazananı tahmin etmek de imkan dahilindedir. Aynı şekilde oyuncuların gelecekteki performansları da tahmin edilebilir. Böylece, oyuncuların değeri ve maaşları sezon boyunca toplanan verilerle belirlenir.
Biraz fantastik bir örnek gibi gelebilir. Ancak MoneyBall filmi, oyuncuların izini sürmek ve aynı zamanda düşük değerli oyuncuları tespit edebilmek için big datanın kullanılabileceğini gösterir.
Formula 1 yarışlarında, yüzlerce sensörlü yarış arabaları terabaytlarca veri üretir. Bu sensörler lastik basıncından yakıt yanma verimliliğine kadar veri noktaları toplar. Verilere dayanarak, mühendisler ve veri analistleri bir yarışı kazanmak için ayarlamalar yapılıp yapılmayacağına karar verir. Ayrıca, büyük veri kullanarak, yarış ekipleri, sezon boyunca toplanan verileri kullanan simülasyonlara dayanarak yarışı daha önce bitirecekleri zamanı tahmin etmeye çalışır.
Big Data Teknoloji Uygulama Alanları
eBay.com, 7.5 petabayt ve 40PB’de iki veri deposunun yanı sıra, arama, tüketici önerileri ve mağazacılık için bir 40PB Hadoop kümesini aktif olarak kullanıyor.
Amazon.com, her gün milyonlarca arka uç işleminin yanı sıra yarım milyondan fazla üçüncü taraf satıcısından gelen soruları da ele alıyor. Amazon’un çalışmasını sağlayan çekirdek teknoloji Linux tabanlı ve 2005 itibariyle dünyanın en büyük üç Linux veritabanına sahipler ve bunların kapasiteleri 7.8 TB, 18.5 TB ve 24.7 TB şeklindedir.
Facebook, kullanıcı tabanından 50 milyar fotoğrafı işliyerek eşleştiriyor ve Haziran 2017 itibariyle, Facebook aylık 2 milyar aktif kullanıcıya ulaşmıştır.
Konuyla ilgili daha fazla bilgi için forum sitemizi ziyaret edeblirsiniz.