BÜYÜK COĞRAFİ VERİ SETLERİNİN KÜMELENMESİNDE MAP REDUCE MODELLEMELERİ YOLUYLA BİTKİ COĞRAFYASI VERİ TABANLARININ OLUŞTURULMASI

Author:

Year-Number: 2019-9
Yayımlanma Tarihi: null
Language : null
Konu :
Number of pages: 213-240
Mendeley EndNote Alıntı Yap

Abstract

Bugün dijitalleşme olgusunun giderek yaygınlaştığı veri ortamlarında büyük veriye duyulan ihtiyaçlar günden güne farklı biçimsel yapılarda karşımıza çıkmaktadır. Büyük veriler, karmaşık, hacimli olup, büyüyen verilerdir. Büyük veriler (Big data) Endüstri 4,0, veri madenciliği, bulut alt yapısı sistemlerindeki inovasyonel yenilikler ve değişimler sayesinde birçok veri havuzunda hızlı ağ özellikleri ile kolayca depolanabilme özelliğini kazanmıştır. Dolayısıyla büyük veriler birçok bilim dalında dinamik, fiziksel, biyolojik bir hız kazanmıştır. Özelde HDFS (Hadoop Distrubuted File System) ve Hadoop bileşenleri büyük veri setlerinde sıklıkla tercih edilen uygulamalar arasında yerini korumuştur. Günümüzde büyük veri ilişkisini yazılım mühendisliğinde, gıda mühendisliğinde, donanım mühendisliğinde, sağlık araştırmalarında, kodlama eğitimlerinde, endüstriyel modellemelerde daha popüler olduğunu görmekteyiz. Coğrafi verinin teknolojik anlamda kendini revize etmesine bağlı olarak söz konusu Coğrafi veriler artık büyük veri havuzlarının etkisi alanına girmiştir. Çünkü büyük veri olmadan dijital dünya ve dijital coğrafya süreçlerini tam anlamı ile idrak etmek zorlaşmıştır. Coğrafya biliminin mekânsal geleneğinin mekânsal analizlerle iç içe olması Coğrafya bilimini modern teknolojik uygulamalar, coğrafya ve istatistik tabanlı süreçlere, programlara yöneltmiştir. Bu manada bu çalışmanın kaleme alınmasının başlıca gayesi şunlardır: Büyük veri (big data) kullanım ve yaygınlığını oluşturulan Bitki coğrafyası veri tabanları ile gözler önüne sermek, büyük verinin kümelenmesinde önem arz eden, kullanılan teknolojik uygulamaları ve algoritmalardan kısaca bahsetmek, büyük veri ve coğrafi veri arasındaki benzerlik ve farklılık, kullanım alanlarını mukayese etmeye çalışmak, büyük verinin Hadoop stratejisi ve temel bileşenleri arasındaki ilişkisel bağlantıyı donanım dili örnekleriyle gözler önüne sermek vb. amaçlarla çalışma yürütülmeye çalışılmıştır. Çalışmanın kapsam alanında büyük veri, coğrafi veri, büyük veri bileşenleri, büyük veri kümelenme teknikleri ve algoritmaları, bitki veri tabanları, büyük veri kullanım alanları ve veri madenciliği uygulamaları yer almıştır. Çalışma kuramsal bir çerçevede yürütülmeye çalışılmıştır. İlgili literatür taramasında planlama, kaynakların araştırılma ve bulunması, kaynakların incelenmesi, literatür dokümanlarının hazırlanması ve literatürün metne aktarılması, yazılması şeklinde disiplinle takip edilmiştir. Araştırma da nicel araştırma yöntemi tercih edilmiştir. Araştırma tasarımı ve yöntemleri bakımından temelde pozitivist yaklaşım güdüldüğü için araştırmada pozitivist paradigma metodolojisi tercih edilmiştir. Pozitivist metodolojisi bakımından çalışma da bilgiyi elde etme yolunda “ tümdengelim” yoluna başvurulmuştur. Bu bağlamda nicel araştırma türleri bakımından ilgili çalışma da “ İstatiksel araştırma” türüne yer verilmiştir. Çalışma istatiksel araştırma türünde yer aldığı için veri toplama ve analiz teknikleri bakımından ağırlıklı olarak istatiksel analiz, matematik modellemelerine yer verilmiştir. Çalışmanın bulgular kısmında önceden oluşturulan örnek büyük Coğrafi veri setleri kendi içerisinde sistematik boyutlara ayrılarak MAP Reduce ilişkisel bağlantısı ile incelenmeye çalışılmıştır. Eşle – İndirgeme hesaplaması ile oluşturulan veri blokları anahtar değer, çiftler, anahtar gruplar, indirgeme (reduce) ile birleştirilmiştir. Veriler daha sonra Eşle- İndirgeme kelime sayma şematik gösterimleri ile zenginleştirilmiştir. Daha sonra örnek büyük veri örnekleri ile büyük Coğrafi veriler karşılaştırmaya tabi tutularak kendi içinde değerlendirilmiştir. Belirlenen türlerin tür dağılım veri tabanı için Global Biodiversity Informatıon Facılıty data setlerinden yararlanılmış. Çalışmanın sonuç kısmında bulgularda elde edilen bilgiler ve üretilen veriler Tablo, şekil ve şematik gösterimler değerlendirilmiş, yapılan çalışmanın mevcut Coğrafya literatürü ve Bitki Coğrafyası araştırmaları üzerine yenilikleri ortaya konulmaya çalışılmıştır. Çalışma da ayrıca büyük veri olgusu, büyük veri uygulama alanları, büyük veri analitiği ve boyutları da araştırılmıştır

Keywords

Abstract

In today's data environments where the phenomenon of digitalization is becoming more widespread, the needs for big data are seen in different formal structures from day to day. Large data are complex, bulky and growing data. Big data Industry 4.0, data mining, cloud infrastructure systems with innovative innovations and changes in many data pools thanks to rapid network features have been easily stored. Hence, large data have gained dynamic, physical and biological speed in many disciplines. In particular, the HDFS (Hadoop Distrubuted File System) and Hadoop components are often preferred among large data sets. Nowadays, we see that the big data relationship is more popular in software engineering, food engineering, hardware engineering, health research, coding education, industrial modeling. Due to the fact that geographic data revises itself in the technological sense, these Geographical data are now in the domain of large data pools. Because without the big data, digital world and digital geography processes have become difficult to comprehend. The spatial analysis of geography has been intertwined with spatial analysis, and it has directed geography science to modern technological applications, geography and statistics based processes and programs. In this sense, the main objectives of this study are: To reveal the usage and prevalence of big data with the data of plant geography databases. trying to express the importance of big data is important in the clustering, technological applications and algorithms used to mention briefly, big data and geographic data between the similarity and difference, trying to compare the areas of use, Hadoop strategy of large data and illustrating the relational connection between the basic components and the examples of hardware language. The aim was to conduct the study. The scope of the study included large data, geographic data, large data components, large data clustering techniques and algorithms, cloud technology applications, large data usage areas and data mining applications. The study was attempted in a theoretical framework. In the related literature review, planning, researching and finding the resources, examining the resources, preparing the literature documents and transferring the literature to the text and writing were followed with the discipline. Quantitative research method was preferred. The positivist paradigma methodology was preferred in the study because it was mainly driven by positivist approach in terms of research design and methods. In terms of positivist methodology, deductive work’s approach has been applied in the way of obtaining information. In this context, statistical research type is included in the related study in terms of quantitative research types. Since the study is included in the type of statistical research, statistical analysis and mathematical modeling are used mainly for data collection and analysis techniques. In the findings of the study, pre-formed sample large geographic data sets were tried to be analyzed by MAP Reduce relational connection. Data blocks created with Mapping - Reduction calculation are combined with key value, duplicates, key groups, reduction. The data is then enriched with the schematic representations of Pair-Reduction word counting. Then, large sample of data and large geographic data were evaluated and evaluated. In the final part of the study, the data obtained in the findings and the data, tables, figures and schematic representations were evaluated and the current geography literature and plant geography researches were tried to be put forward. Global Biodiversity Informatics Faculty data sets were used for species distribution database of identified species. In the study, large data cases, large data application areas, large data analytics and dimensions were investigated.

Keywords