İnternet tabanlı bilgi erişimi destekli bir otomatik öğrenme sistemi
Yükleniyor...
Dosyalar
Tarih
2007
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Trakya Üniversitesi Fen Bilimleri Enstitüsü
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Doktora Tezi Trakya Üniversitesi Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Bölümü ÖZET Bu tez, Türkçe için alt öğeleme listelerinin otomatik olarak elde edilmesi görevini gerçekleştirmek için planlanan web-tabanlı bir sistemi sunar. Zamir düşmesi, seyrek gösterimli bir dil ve serbest sıralaması özellikleri olan Türkçe doğal dil işleme görevleri için ilginç ve zorlukları olan bir uygulama alanı sağlar. Tez; bilgi erişimi, doğal dil işleme ve makine öğrenmesi alanlarına katkıda bulunmayı amaçlar. Öncelikle, doğal dil işleme ve makine öğrenmesi çalışmalarını kullanan çoklu derlemin otomatik olarak oluşturulmasını sağlayan bir web-tabanlı yaklaşım önereceğiz. Bunun için, arama motorlarını kullanarak internet üzerinden dilbilimsel Türkçe cümleleri toplayan ve hal durum bilgileri açısından bunları işaretleyen bir araç geliştirildi. İkincil olarak; rastgele seçilmiş Türkçe fiillere ait alt öğeleme listelerini elde etmek için oluşturulan derleme çeşitli makine öğrenme metotları uygulanmıştır. Üçüncül olarak; veri boyutunun metotların performansına etkisini anlamak için bu veri boyutu farklı boyutlarda birkaç alt kümeye bölünmüştür. Son olarak; özellikle gözetimli ve gözetimsiz metotların arasındaki farka odaklanan deneylerimizde kullanılan metotların karşılaştırmalı değerlendirilmesi önerildi. Tezin organizasyonu şu şekildedir. İlk bölüm, bilgi erişimi, alt öğeleme listesi ve makine öğrenmesi kavramları hakkında ön bilgiler verir. Ayrıca, bu bölüm ilgili çalışmalara ve bilgisayımsal bakış açısıyla incelenecek bir dil olarak Türkçe'nin ayırt edici özelliklerine temas edecektir. İkinci bölüm, deneylerde kullanılan bazı makine öğrenmesi algoritma ve tekniklerini tanıtır. Üçüncü bölümde, doğal dil çalışmaları için uygun büyük bir veri seti olan ?web olarak derlem? görüşü anlatılacaktır. Dördüncü bölüm, önerilen sistemin tasarımını ve uygulamasını verir. Beşinci bölüm, deneylerimizdeki sonuçları raporlar ve performansın farklı veri boyutlarına etkisini gözlemler. Ayrıca, deneylerde kullanılan metotların bir karşılaştırmalı değerlendirilmesini sağlar. Tez, altıncı bölümde ana bulgular ve sonuçların özeti ile bitirilmektedir. Anahtar Kelimeler: Alt öğeleme listesinin otomatik elde etme, makine öğrenmesi metotları, bir derlem olarak web
Doctorate Thesis Trakya University Graduate School of Natural and Applied Sciences Department of Computer Engineering This thesis presents a web-based system that is intended to perform the task of automatic acquisition of subcategorization frames for Turkish. As a pro-drop, a referentially sparse and free word order language, Turkish provides an interesting and challenging domain of application for natural language processing tasks. The thesis aims to contribute to the fields of information retrieval, natural language processing and machine learning in the following respects. Firstly, we offer a web-based approach to the automatic construction of corpora to be used in natural language processing and machine learning work. To this effect, we implemented a tool that collects grammatical Turkish sentences from internet via search engines and annotates them with respect to case marking information. Secondly, various machine learning methods were applied to the generated corpus in order to acquire the subcategorization frames of a set of randomly chosen Turkish verbs. Thirdly, we divided our set of patterns into several subsets of different sizes to understand effect of data size on the performance of methods. Lastly, we offer a comparative evaluation of the methods used in our experiments, focusing particularly on the distinction between supervised and unsupervised methods. The thesis is organized as follows. The first chapter gives a brief account of the concepts of information retrieval, subcategorization frame and machine learning. Moreover, this chapter touches upon the relevant literature and the peculiarities of a Turkish as a language to be investigated from a computational point of view. The second chapter introduces some machine learning algorithms and techniques used in our experiments. In the third chapter, we describe the view of web as a corpus that is the largest data set available for natural language studies. In the fourth chapter, the design and implementation aspects of the proposed system are given. The fifth chapter reports on the results of our experiments and provides a comparative evaluation of the methods used in the experiments along with observations on the effect of data size on the performances. The thesis ends with a summary of major findings and conclusions in chapter six. Keywords: Automatic acquisition of subcategorization frames, machine learning methods, web as a corpus
Doctorate Thesis Trakya University Graduate School of Natural and Applied Sciences Department of Computer Engineering This thesis presents a web-based system that is intended to perform the task of automatic acquisition of subcategorization frames for Turkish. As a pro-drop, a referentially sparse and free word order language, Turkish provides an interesting and challenging domain of application for natural language processing tasks. The thesis aims to contribute to the fields of information retrieval, natural language processing and machine learning in the following respects. Firstly, we offer a web-based approach to the automatic construction of corpora to be used in natural language processing and machine learning work. To this effect, we implemented a tool that collects grammatical Turkish sentences from internet via search engines and annotates them with respect to case marking information. Secondly, various machine learning methods were applied to the generated corpus in order to acquire the subcategorization frames of a set of randomly chosen Turkish verbs. Thirdly, we divided our set of patterns into several subsets of different sizes to understand effect of data size on the performance of methods. Lastly, we offer a comparative evaluation of the methods used in our experiments, focusing particularly on the distinction between supervised and unsupervised methods. The thesis is organized as follows. The first chapter gives a brief account of the concepts of information retrieval, subcategorization frame and machine learning. Moreover, this chapter touches upon the relevant literature and the peculiarities of a Turkish as a language to be investigated from a computational point of view. The second chapter introduces some machine learning algorithms and techniques used in our experiments. In the third chapter, we describe the view of web as a corpus that is the largest data set available for natural language studies. In the fourth chapter, the design and implementation aspects of the proposed system are given. The fifth chapter reports on the results of our experiments and provides a comparative evaluation of the methods used in the experiments along with observations on the effect of data size on the performances. The thesis ends with a summary of major findings and conclusions in chapter six. Keywords: Automatic acquisition of subcategorization frames, machine learning methods, web as a corpus
Açıklama
Doktora Tezi
Anahtar Kelimeler
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control