Yazan : Şadi Evren ŞEKER
Bu yazının amacı, literatürde büyük veri (big data) olarak geçen kavramı açıklamaktır.
Büyük veri en basit anlamıyla, bilgisayarların işleyemeyeceği kadar büyük veri demektir. Bu yüzden büyük verinin boyutu sürekli olarak artmaktadır. Yani bir bilgisayar tarlasının (computer farm) işleyebileceği miktar, işlemcilerde, yazılım dünyasında, bağlantı hızlarında v.b. olan teknolojik yeniliklerle sürekli arttırılmakta bu yüzden de işlenebilecek azami veri tanımı sürekli artmaktadır.
Büyük veri için temel 3 tanım yapmak mümkündür:
- İşlenecek verinin boyutu (şayet donanım limitlerinin üzerinde bir boyuttan bahsediyorsak büyük veridir diyebiliriz).
- İşlenecek verinin yapısı
- İşlenecek veri üzerinden çıkarılmak istenen sonucun karmaşıklığı
Büyük veri kavramı literatürde sadece işleme kapasitesi olarak kullanılmaz. Aynı zamanda verinin işlenmeye uygunluğunu da ifade eder. Örneğin gazete haberlerini işlemek istiyor olalım. Bu haberlerin sayısı, yapacağımız işleme için önemli bir parametredir ve işleyebileceğimizin üzerinde gazete haberi varsa, bu haber kaynağını büyük veri olarak tanımlayabiliriz. Ancak diyelim ki işleyebileceğimiz verinin yarısı kadar olup (yani kapasitemiz dahilinde olup) ancak karmaşıklığı veya düzensizliği yüzünden işleyemeyeceğimiz bir veri kaynağı ise, bu durumda da bu veri kaynağını büyük veri olarak adlandırabiliriz. Yani kritik nokta, her zaman için bilgisayarların erişebileceği işlem kapasitesinin çok üzerindeki veri kaynaklarıdır.
Diğer bir durum ise şu şekilde olabilir. Mesela facebook üzerindeki yazılmış yazıları işlemek istiyoruz. Diyelim ki Türkiye ile ilgili olanlarını bulacağız ve bunun için basit bir çözüm olarak elimizdeki bir kelime listesinde olan ve bu listedeki kelimelerin geçtiği facebook mesajlarını ayırıyoruz. Bu problem için işleyebileceğimiz kapasitenin üstüne büyük veri diyebiliriz ancak problemi biraz değiştirip aynı veri üzerinde mesela arkadaşlık ilişkisini takip etmek istersek bu problem için işleyebileceğimiz kapasite çok daha az olacaktır. Dolayısıyla büyük veri tanımında üçüncü boyut ulaşılmak istenen amaçtır.
Büyük veri için ayrıca bir battaniye terimdir (blanket term) demek yerinde olur. Battaniye terimler genelde birbiri ile ilgili bir grup alt kavramı ifade etmek için kullanılır.
Yani büyük veri çalışmaları aslında bir kaç alt gruptan oluşmaktadır.
- Verinin saklanması problemi
- Verinin saklanması için kullanılacak donanım
- Veriyi saklayacak veritabanı çözümlerinin yetersizliği
- Verinin işlenmesi problemi
- İşleme sırasındaki hafıza problemleri (RAM limitleri)
- İşleme sırasındaki süre problemleri (sürekli akan gerçek zamanlı uygulamalardaki sürenin kritik rolü)
- Verinin yapısallaştırılması problemleri (örneğin bir arama motorundaki indeksleme problemi)
Yukarıdakiler ışığında, büyük veri kavramı 3 farklı boyutta incelenebilir[1] (3 boyut da İngilizce V harfi ile başladığı için literatürde bu yaklaşıma 3V ismi de verilmektedir):
- Volume (hacim): Verinin kapladığı alan
- Velocity (hız): Verinin değişim veya birikme hızı
- Variety (çeşitlilik): Verinin geldiği kaynakların çeşitliliği (email, facebook, videolar, resimler, ses kayıtları v.s.).
Ayrıca yukarıdaki boyutlara iki ilave boyutun eklenmesi de mümkündür (SAS firması tarafından [2])
- Variability (değişkenlik): Verideki değişimdir. Örneğin, sosyal ağlarda trend olan bir konu kıs süre sonra değişebilmektedir.
- Complexity ( Karmaşıklık) : Verinin işlenmesindeki karmaşıklıktır. Örneğin twitter kullanıcılarının facebook arkadaşlarının takibi ile youtube takipçilerinin takibi arasında işlem açısından karmaşıklık farkı vardır.
Yukarıdaki bu 5 parametrenin neticesinde yine bir V harfi olan Value (değer) elde edilmeye çalışılmaktadır.
Büyük Verinin kullanım alanları:
- Sistemlerin analizinde, hataların ve problemlerin tespit edilmesi ve çözüm geliştirilmesinde milyarlarca dolarlık kazanç sağlamıştır.
- Çalışan sistemlerin gerçek zamanda optimizasyon problemlerinin çözümünde ekonomik katkı sağlamaktadır. (örneğin hareket halindeki araçlar için en iyi yolun hesaplanması).
- Depo takibi veya karlılık arttırmak için yapılan piyasa araştırmaları (stok ve ürün fiyatlarının takip edilmesi gibi) ile işletmelere ekonomik değer katmaktadır.
- Kampanya oluşturma gibi müşteri odaklı veri işleme çalışmaları ile pazarlama ve satışa destek olmaktadır. Örneğin indirim kuponları, bağlılık kartları (loyality cards) gibi çok sayıda uygulama alanı bulunmaktadır.
- Mobil cihazlar üzerinde geliştirilen uygulamalarla konum bağımlı çözümler sunmaktadır (örneğin müşterinin bulunduğu konuma yakın ve yine müşterinin geçmiş alışkanlıklarından üretilmiş tavsiyeler, reklam ve bildirimlerde bulunmak gibi.
- Risk hesaplamalarında, örneğin işletme, operasyon ve saha risklerinin hesaplanmasında, sigortacılık alanında, anlık ve hızlı verilere ulaşmayı sağlamaktadır.
- Müşteri seçimi (en önemli, en çok etkisi olan, en riskli, satın alma gücü en yüksek gibi) işlemlerini hızlı bir şekilde yapabilmektedir.
- Sistem suiistimallerini (virüs, zararlı yazılım, sistem saldırısı yapan kişiler, terör örgütleri v.b.) kısa sürede bulabilmektedir.
Büyük Veri üzerindeki araştırma konuları
Büyük veri kavramı, uzun süredir akademinin ilgi odaklarından birisidir. Hızla gelişmekte ve yeni çalışma alanları açılmakta olan konuda çok sayıda çalışma bulunmaktadır. Bunlardan bazıları aşağıdadır.
- Şifreli arama (encrypted search). Bu çalışma, verilerin tamamen şifrelenmiş olduğu bir ortamda, verilerin içeriğine erişmek dışında ulaşılabilecek bilgiler hakkında yürütülmektedir. Mart 2014 yılında, Amerikan Mühendislik Eğitimi Topluluğu’na MIT Bilgisayar bilimleri ve yapay zeka laboratarından Amir Esmailpour tarafından ‘’Tackling the challanges of Big Data’’ başlıklı sunum bu konudaki önemli adımlardan birisidir[3]. Sunumda büyük verinin sağladığı yan bilgilerin yanında güvenlik arttırımı önlemlerine de yer verilmiştir.
- 2012 yılının Mart ayında Beyaz saray tarafından ‘’Büyük Veri İnisiyatifi’’ (Big Data Initiative) ismi verilen bir yapı kurulmuş ve bu inisiyatife 6 federal bölüm ve ajanstan 200 milyonun üzerinde araştırma fonu aktarılmıştır. Bu bölümler arasında, Ulusal Bilim Akademisi (National Science Foundation, NSF) da yer almaktadır. NSF ayrıca Kaliforniya Üniversitesi, Berkeley’deki AMPLab için 5 yıllık proje için 10 milyon dolar üzerinde bütçe ayırmıştır [4]. AMPLab ayrıca DARPA’dan ve onlarca piyasa oyuncusundan sponsorluklar almıştır. Çalışmaları çok çeşitli konulara yayılan AMPLab, otoyollardaki trafik tahminlerinden[5], kanser tedavisine [6] kadar çok çeşitli konularda araştırma yapmaktadır.
- Beyaz saray büyük veri inisiyatifi aynı zamanda Enerji Bakanlığı ile 25 milyon dolarlık ve 5 yıllık bir Ölçeklenebilir Veri Yönetimi Analizi ve Görselleştirilmesi (Scalable Data Management, Analysis and Visualization (SDAV)) projesi imzalamıştır. SDAV projesi kapsamında, 6 ulusal laboratuvar ve 7 üniversiteden elde edilen bilgi birikiminin birleştirilmesi ve bakanlığın süper bilgisayarlarında görselleştirilmesi hedeflenmektedir [7][8][9].
- Avrupa komisyonu tarafından desteklenen 7. Çerçeve programında, işletme ve akademisyenlerin büyük veri konularını tartışabilmesi için 2 yıllık ‘’Büyük Veri Açık Özel Forumu’’ (Big Data Public Private Forum) ismi verilen çalışmaya yer verilmiştir. Projenin ana amacı, Avrupa Birliği kapsamında büyük veri ekonomisine geçişi hedeflemektedir (Proje ayrıca horizon2020 kapsamındadır)[10] 2015 yılında da corbis üzerinden yeni büyük veri çağrısı yapılacağı duyurulmuştur.
- İngiliz hükümeti tarafından Mart 2014 yılında Alan Turing enstitüsü tarafından büyük veri toplanacağı ve üzerinde çalışma yapılacağı duyurulmuştur[11].
- Massachusetts eyaleti tarafından Büyük Veri Girişimi ismi verilen girişim Mayıs 2012 yılında özel işletmeler ve araştırma enstitülerinin katılımı ile kurulmuştur. [12] MIT bilgisayar bilimleri ve yapay zeka laboratuvarının da etkisi ve Intel Bilim ve Teknoloji merkezinin de katılımı ile proje ilerlemektedir[13].
- Türkiyede bulut bilişim ve büyük veri uygulamalarını yürüten önemli veri merkezlerinden birisi Türk Telekom Veri Merkezidir (TTVM) [14].
Kaynakça
[1] Doug Laney, META Group. "3D Data Management: Controlling Data Volume, Velocity, and Variety." February 2001.
[2] http://www.sas.com/en_us/insights/big-data/what-is-big-data.html
[3] http://ubconferences.org/ Mart 2014.
[4] "Obama Administration Unveils "Big Data" Initiative:Announces $200 Million In New R&D Investments". The White House.
[5] "AMPLab at the University of California, Berkeley". Amplab.cs.berkeley.edu. Retrieved 2013-03-05.
[6] "NSF Leads Federal Efforts In Big Data". National Science Foundation (NSF). 29 March 2012.
[7] Timothy Hunter; Teodor Moldovan; Matei Zaharia; Justin Ma; Michael Franklin; Pieter Abbeel; Alexandre Bayen (October 2011). "Scaling the Mobile Millennium System in the Cloud".
[8] David Patterson (5 December 2011). "Computer Scientists May Have What It Takes to Help Cure Cancer". The New York Times.
[9] "Secretary Chu Announces New Institute to Help Scientists Improve Massive Data Set Research on DOE Supercomputers". "energy.gov".
[10] "Big Data Public Private Forum". Cordis.europa.eu. 2012-09-01. Retrieved 2013-03-05.
[11] "Alan Turing Institute to be set up to research big data". BBC News. 19 March 2014. Retrieved 2014-03-19.
[12] "Governor Patrick announces new initiative to strengthen Massachusetts’ position as a World leader in Big Data". Commonwealth of Massachusetts.
[13] "Big Data @ CSAIL". Bigdata.csail.mit.edu. 2013-02-22. Retrieved 2013-03-05.
[14] http://www.ttidc.com.tr/ttvmwp.web/idc/index.xhtml