BÜYÜK COĞRAFİ VERİ SETLERİNİN KÜMELENMESİNDE MAP REDUCE MODELLEMELERİ YOLUYLA BİTKİ COĞRAFYASI VERİ TABANLARININ OLUŞTURULMASI

Muhammed ÇETİN; Ali MEYDAN

doi:10.18560/cukurova.1142

BÜYÜK COĞRAFİ VERİ SETLERİNİN KÜMELENMESİNDE MAP REDUCE MODELLEMELERİ YOLUYLA BİTKİ COĞRAFYASI VERİ TABANLARININ OLUŞTURULMASI

Author :

DOI : 10.18560/cukurova.1142

Year-Number: 2019-9

Language : null

Subject :

Number of pages: 213-240

Mendeley

EndNote

Alıntı Yap

English Turkish

Abstract

Bugün dijitalleşme olgusunun giderek yaygınlaştığı veri ortamlarında büyük veriye duyulan ihtiyaçlar günden güne farklı biçimsel yapılarda karşımıza çıkmaktadır. Büyük veriler, karmaşık, hacimli olup, büyüyen verilerdir. Büyük veriler (Big data) Endüstri 4,0, veri madenciliği, bulut alt yapısı sistemlerindeki inovasyonel yenilikler ve değişimler sayesinde birçok veri havuzunda hızlı ağ özellikleri ile kolayca depolanabilme özelliğini kazanmıştır. Dolayısıyla büyük veriler birçok bilim dalında dinamik, fiziksel, biyolojik bir hız kazanmıştır. Özelde HDFS (Hadoop Distrubuted File System) ve Hadoop bileşenleri büyük veri setlerinde sıklıkla tercih edilen uygulamalar arasında yerini korumuştur. Günümüzde büyük veri ilişkisini yazılım mühendisliğinde, gıda mühendisliğinde, donanım mühendisliğinde, sağlık araştırmalarında, kodlama eğitimlerinde, endüstriyel modellemelerde daha popüler olduğunu görmekteyiz. Coğrafi verinin teknolojik anlamda kendini revize etmesine bağlı olarak söz konusu Coğrafi veriler artık büyük veri havuzlarının etkisi alanına girmiştir. Çünkü büyük veri olmadan dijital dünya ve dijital coğrafya süreçlerini tam anlamı ile idrak etmek zorlaşmıştır. Coğrafya biliminin mekânsal geleneğinin mekânsal analizlerle iç içe olması Coğrafya bilimini modern teknolojik uygulamalar, coğrafya ve istatistik tabanlı süreçlere, programlara yöneltmiştir. Bu manada bu çalışmanın kaleme alınmasının başlıca gayesi şunlardır: Büyük veri (big data) kullanım ve yaygınlığını oluşturulan Bitki coğrafyası veri tabanları ile gözler önüne sermek, büyük verinin kümelenmesinde önem arz eden, kullanılan teknolojik uygulamaları ve algoritmalardan kısaca bahsetmek, büyük veri ve coğrafi veri arasındaki benzerlik ve farklılık, kullanım alanlarını mukayese etmeye çalışmak, büyük verinin Hadoop stratejisi ve temel bileşenleri arasındaki ilişkisel bağlantıyı donanım dili örnekleriyle gözler önüne sermek vb. amaçlarla çalışma yürütülmeye çalışılmıştır. Çalışmanın kapsam alanında büyük veri, coğrafi veri, büyük veri bileşenleri, büyük veri kümelenme teknikleri ve algoritmaları, bitki veri tabanları, büyük veri kullanım alanları ve veri madenciliği uygulamaları yer almıştır. Çalışma kuramsal bir çerçevede yürütülmeye çalışılmıştır. İlgili literatür taramasında planlama, kaynakların araştırılma ve bulunması, kaynakların incelenmesi, literatür dokümanlarının hazırlanması ve literatürün metne aktarılması, yazılması şeklinde disiplinle takip edilmiştir. Araştırma da nicel araştırma yöntemi tercih edilmiştir. Araştırma tasarımı ve yöntemleri bakımından temelde pozitivist yaklaşım güdüldüğü için araştırmada pozitivist paradigma metodolojisi tercih edilmiştir. Pozitivist metodolojisi bakımından çalışma da bilgiyi elde etme yolunda “ tümdengelim” yoluna başvurulmuştur. Bu bağlamda nicel araştırma türleri bakımından ilgili çalışma da “ İstatiksel araştırma” türüne yer verilmiştir. Çalışma istatiksel araştırma türünde yer aldığı için veri toplama ve analiz teknikleri bakımından ağırlıklı olarak istatiksel analiz, matematik modellemelerine yer verilmiştir. Çalışmanın bulgular kısmında önceden oluşturulan örnek büyük Coğrafi veri setleri kendi içerisinde sistematik boyutlara ayrılarak MAP Reduce ilişkisel bağlantısı ile incelenmeye çalışılmıştır. Eşle – İndirgeme hesaplaması ile oluşturulan veri blokları anahtar değer, çiftler, anahtar gruplar, indirgeme (reduce) ile birleştirilmiştir. Veriler daha sonra Eşle- İndirgeme kelime sayma şematik gösterimleri ile zenginleştirilmiştir. Daha sonra örnek büyük veri örnekleri ile büyük Coğrafi veriler karşılaştırmaya tabi tutularak kendi içinde değerlendirilmiştir. Belirlenen türlerin tür dağılım veri tabanı için Global Biodiversity Informatıon Facılıty data setlerinden yararlanılmış. Çalışmanın sonuç kısmında bulgularda elde edilen bilgiler ve üretilen veriler Tablo, şekil ve şematik gösterimler değerlendirilmiş, yapılan çalışmanın mevcut Coğrafya literatürü ve Bitki Coğrafyası araştırmaları üzerine yenilikleri ortaya konulmaya çalışılmıştır. Çalışma da ayrıca büyük veri olgusu, büyük veri uygulama alanları, büyük veri analitiği ve boyutları da araştırılmıştır

Keywords

Abstract

In today's data environments where the phenomenon of digitalization is becoming more widespread, the needs for big data are seen in different formal structures from day to day. Large data are complex, bulky and growing data. Big data Industry 4.0, data mining, cloud infrastructure systems with innovative innovations and changes in many data pools thanks to rapid network features have been easily stored. Hence, large data have gained dynamic, physical and biological speed in many disciplines. In particular, the HDFS (Hadoop Distrubuted File System) and Hadoop components are often preferred among large data sets. Nowadays, we see that the big data relationship is more popular in software engineering, food engineering, hardware engineering, health research, coding education, industrial modeling. Due to the fact that geographic data revises itself in the technological sense, these Geographical data are now in the domain of large data pools. Because without the big data, digital world and digital geography processes have become difficult to comprehend. The spatial analysis of geography has been intertwined with spatial analysis, and it has directed geography science to modern technological applications, geography and statistics based processes and programs. In this sense, the main objectives of this study are: To reveal the usage and prevalence of big data with the data of plant geography databases. trying to express the importance of big data is important in the clustering, technological applications and algorithms used to mention briefly, big data and geographic data between the similarity and difference, trying to compare the areas of use, Hadoop strategy of large data and illustrating the relational connection between the basic components and the examples of hardware language. The aim was to conduct the study. The scope of the study included large data, geographic data, large data components, large data clustering techniques and algorithms, cloud technology applications, large data usage areas and data mining applications. The study was attempted in a theoretical framework. In the related literature review, planning, researching and finding the resources, examining the resources, preparing the literature documents and transferring the literature to the text and writing were followed with the discipline. Quantitative research method was preferred. The positivist paradigma methodology was preferred in the study because it was mainly driven by positivist approach in terms of research design and methods. In terms of positivist methodology, deductive work’s approach has been applied in the way of obtaining information. In this context, statistical research type is included in the related study in terms of quantitative research types. Since the study is included in the type of statistical research, statistical analysis and mathematical modeling are used mainly for data collection and analysis techniques. In the findings of the study, pre-formed sample large geographic data sets were tried to be analyzed by MAP Reduce relational connection. Data blocks created with Mapping - Reduction calculation are combined with key value, duplicates, key groups, reduction. The data is then enriched with the schematic representations of Pair-Reduction word counting. Then, large sample of data and large geographic data were evaluated and evaluated. In the final part of the study, the data obtained in the findings and the data, tables, figures and schematic representations were evaluated and the current geography literature and plant geography researches were tried to be put forward. Global Biodiversity Informatics Faculty data sets were used for species distribution database of identified species. In the study, large data cases, large data application areas, large data analytics and dimensions were investigated.

Keywords

Kaynakça

Akçapınar, G. ve Bayazıt, A. (2019). MoodleMiner: data mining analysis tool for moodle learning management system. İlköğretim online, 18(1).

Çiffti, M. A. ve Ertuğrul, D. Ç. (2017). Hadoop ve mapreduce teknolojisi aracılığıyla gıda-tabanlı mobil

Bardak, T. ve Sözen, E. (2018, October). Veri madenciliği ve önemi. 6. ASM Uluslararası Tarım ve Çevre Kongresi, Çevrimiçi ön yayın.

Cox, M. ve Ellsworth, D. (1997). Application-controlled demand paging for out-of-core visualization.

Cosic, R., Shanks, G. ve Maynard, S. (2012). Towards a business analytics capability maturity model. Lamp, J. (Ed.). Location, Location, Location: Proceedings of the 23rd Australasian Conference on Information Systems içinde (s. 1-11). Geelong, Avusturalya: ACIS.

Şenkul, Ç. ve Kaya, S. (2017). Türkiye endemik bitkilerinin coğrafi dağılışı. Türk Coğrafya Dergisi, 109-120.

Çetin, M., Özkaya, A., Keskin, M. ve Özdemir, Ö. (2019). Sosyal medya platformlarının Türkiye’de coğrafya öğretim süreçlerine katkısı. Sosyal Bilimler Dergisi/The Journal Of Social Sciense, 456-472.

Çetin, M. Ve Özkaya, A. (2019). Coğrafi bilgi paylaşımı yapan sosyal medya sitelerinde veri kalitesi ve

Davis, P. H. ve Tan, K. (Ed.). (1988). Flora of Turkey and the aegean islands. Edinburgh University Press.

Davis, P. H. (Ed.). (1965–1985). Flora of Turkey and the East Aegean Islands, Cilt (1–9). Edinburgh:

Ertekin, M. (2012). Ebe sarıçamı (Pinus sylvestris L. ssp. hamata (Steven) Fomin var. compacta Tosun)’nın kozalak ve tohum özelliklerinde genetik çeşitlilik. [Özel sayı]. Bartın Orman Fakültesi Dergisi, 14, 84-91.

Ferrucci, F., Salza, P. ve Sarro, F. (2018). Using hadoop mapreduce for parallel genetic algorithms: a comparison of the global, grid and island models. Evolutionary computation, 26(4), 535-567.

Hurwitz, J., Nugent, A., Halper, F. ve Kaufman, M. (2013). Big data for dummies. New Jersey, NJ: John Wiley & Sons.

Yaz, H. F. (2014). Çok değişkenli istatistiksel tekniklerden kümeleme analizi; SPSS ile bir uygulama,

Kaya, M. ve Aydoğan, T. (2019). Hadoop map/reduce yöntemi ile klasik veri okuma tekniği arasında bir performans karşılaştırılması. Süleyman Demirel Üniversitesi Uluslarası Teknolojik Bilimler Dergisi, 10(3), 10-19.

Kayacık, H. (1965). Orman ve park ağaçlarının özel sistematiği. 1. Cilt. Gymnospermae (Açık Tohumlular). İ.Ü Orman Fakültesi Yayını: İstanbul.

LaValle, S., Lesser, E., Shockley, R., Hopkins, M. S., & Kruschwitz, N. (2011). Big data, analytics and the path from insights to value. MIT sloan management review, 52(2), 21.

Mamıkoğlu, N. G., & Ergüven, E. (2012). Türkiye'nin ağaçları ve çalıları. İstanbul: NTV yayınları.

Sundarrajan, S. ve Shivalingamurthy, S. G. (2015). U.S. Patent Application No. 14/553,786

Simon, P. (2013). Too big to ignore: the business case for big data Cilt. 72. Hoboken, New Jersey, NJ: John

Trkman, P., McCormack, K., De Oliveira, M. P. V. ve Ladeira, M. B. (2010). The impact of business analytics on supply chain performance. Decision Support Systems, 49(3), 318-327.

Yaltırık, F. (1993). Dendroloji ders kitabı I: Gymnospermae (Açık tohumlular). İstanbul: İstanbul Üniversitesi, Orman Fakültesi Yayınları.

Yaltırık, F. (1988). Dendroloji: Ders kitabı. İstanbul Üniversitesi Orman Fakültesi Yayınlar

Yaltırık, F. (1984). Turkiye’nin meseleri teshis kilavuzu. Yenilik Basimevi, Istanbul.

Yücel, E. (2005). Ağaçlar ve çalılar. Eskişehir: Etam Matbaa

Wang, Y., Kung, L. ve Byrd, T. A. (2018). Big data analytics: Understanding its capabilities and potential benefits for healthcare organizations. Technological Forecasting and Social Change, 126, 3-13.

White, T. (2012). Hadoop: The definitive guide. Sebastopol, California, Ca: O'Reilly Media, Inc.

Wixom, B. H., Yen, B. ve Relich, M. (2013). Maximizing value from business analytics. MIS quarterly executive, 12(2).

http://194.27.225.161/yasin/tubives/index.php?sayfa=hizli_ara (Son erişim tarihi: 14.06.2019 14:00).

http://acikarsiv.ankara.edu.tr/ (Son erişim tarihi: 14.06.2019 16:00).

https://www.gbif.org/ (Son erişim tarihi: 19.06.2019 21: 21).

http://www.agaclar.net (Son erişim tarihi: 21.06. 2019 17: 30).

https://www.turkiyeflorasi.org.tr (Son erişim tarihi: 14.09.2019 15: 04)

http://www.agaclar.org (Son erişim tarihi: 14.09.2019 15: 45)

Last issue
Previous issues
Article Statistics

BÜYÜK COĞRAFİ VERİ SETLERİNİN KÜMELENMESİNDE MAP REDUCE MODELLEMELERİ YOLUYLA BİTKİ COĞRAFYASI VERİ TABANLARININ OLUŞTURULMASI

Author :

Abstract

Keywords

Abstract

Keywords

Kaynakça

MAKALE İSTATİSTİKLERİ

LINKS

Share