Yazar "Agun, Hayri Volkan" seçeneğine göre listele
Listeleniyor 1 - 4 / 4
Sayfa Başına Sonuç
Sıralama seçenekleri
Öğe Automatically Discovering Relevant Images From Web Pages(IEEE-Inst Electrical Electronics Engineers Inc, 2020) Uzun, Erdinc; Ozhan, Erkan; Agun, Hayri Volkan; Yerlikaya, Tarik; Bulus, Halil NusretWeb pages contain irrelevant images along with relevant images. The classification of these images is an error-prone process due to the number of design variations of web pages. Using multiple web pages provides additional features that improve the performance of relevant image extraction. Traditional studies use the features extracted from a single web page. However, in this study, we enhance the performance of relevant image extraction by employing the features extracted from different web pages consisting of standard news, galleries, video pages, and link pages. The dataset obtained from these web pages contains 100 different web pages for each 200 online news websites from 58 different countries. For discovering relevant images, the most straightforward approach extracts the largest image on the web page. This approach achieves a 0.451 F-Measure score as a baseline. Then, we apply several machine learning methods using features in this dataset to find the most suitable machine learning method. The best f-Measure score is 0.822 using the AdaBoost classifier. Some of these features have been utilized in previous web data extraction studies. To the best of our knowledge, 15 new features are proposed for the first time in this study for discovering the relevant images. We compare the performance of the AdaBoost classifier on different feature sets. The proposed features improve the f-Measure by 35 percent. Besides, using only the cache feature, which is the most prominent feature, corresponds to 7 percent of this improvement.Öğe Doğal dil işlemede çizgesel ve olasılık tabanlı bir otomatik öğrenme uygulaması(Trakya Üniversitesi Fen Bilimleri Enstitüsü, 2008) Agun, Hayri Volkan; Kılıçaslan, YılmazBu tez çalışmasında Türkçe'deki sözdizimsel özelliklerin öğrenilmesi için çizge tabanlı bir otomatik öğrenme modeli sunulmaktadır. Çalışmada bir derlem kullanılarak tasarlanan çizge modeli eğitilmiş ve girilen bir cümle için doğru sözdizimsel etiketler bu model aracılığıyla çıkarılmıştır. Modelin tasarımı sırasında, olasılık tabanlı çizge modeli olan Saklı Markov Modelleri ve çizge teorisinden yararlanılmıştır. Sunulan çalışmada diğer olasılık tabanlı etiketleme algoritmalarından ve istatistiksel doğal dil işleme çalışmalarından farklı olarak Türkçe'nin biçimbilimsel özelliklerinin de kullanılabildiği olasılık tabanlı bir çizge modeli geliştirilmiştir. İlk olarak, ODTÜ-Sabancı Ağaç derleminden model için belirlenen bağlantılara göre bir çizge üretilmiş, daha sonra bu çizge üzerinden sözdizimsel öğelerin bulunabileceği Saklı Markov Modeli oluşturulmuş ve bu modelin üzerinde Viterbi algoritması uygulanarak bir cümle için sözdizimsel öğelerin bulunması sağlanmıştır. Modelin testi için N-Kere Çapraz Doğrulama algoritması kullanılarak başarı ölçülmüştür. Karmaşık derlem çizge modelinden Saklı Markov Modelinin bulunması için çizge teorisinde kullanılan Subdue çizge eşleme algoritmasından yararlanılmıştır. Saklı Markov Modeli ve çizge arama algoritmalarını birlikte kullanılarak daha karmaşık ilişkiye sahip öğeleri (sözdizimsel ve biçimbilimsel ilişkiler gibi) öğrenme için gereken model yapısı oluşturulmuştur. Karmaşık ilişkilerin, sonuç çıkarma ve otomatik öğrenme metotlarının bir arada kullanarak öğrenilmesi, ileride kavram uzayının öğrenilmesi doğrultusunda yapılabilecek çalışmalar için bir alt yapı oluşturmaktadır. Tezin organizasyonu şu şeklidedir. İlk bölüm Türkçe'nin karakteristiği ve istatistiksel doğal dil işleme konularını, ikinci bölüm çalışmanın konusu olan çizge algoritmalarını, üçüncü bölüm uygulamada kullanılan Saklı Markov Modellerini ve dördüncü bölüm uygulamayı ve sonuçlarını, beşinci bölüm ise yorumları içermektedir. Anahtar Kelimeler: Saklı Markov Modelleri, Türkçe için Sözdizimsel Etiketleme, Düzleme Teknikleri. Kümeleme, Çizge MadenciliğiÖğe An effective and efficient Web content extractor for optimizing the crawling process(Wiley, 2014) Uzun, Erdinc; Guener, Edip Serdar; Kilicaslan, Yilmaz; Yerlikaya, Tarik; Agun, Hayri VolkanClassical Web crawlers make use of only hyperlink information in the crawling process. However, focused crawlers are intended to download only Web pages that are relevant to a given topic by utilizing word information before downloading the Web page. But, Web pages contain additional information that can be useful for the crawling process. We have developed a crawler, iCrawler (intelligent crawler), the backbone of which is a Web content extractor that automatically pulls content out of seven different blocks: menus, links, main texts, headlines, summaries, additional necessaries, and unnecessary texts from Web pages. The extraction process consists of two steps, which invoke each other to obtain information from the blocks. The first step learns which HTML tags refer to which blocks using the decision tree learning algorithm. Being guided by numerous sources of information, the crawler becomes considerably effective. It achieved a relatively high accuracy of 96.37% in our experiments of block extraction. In the second step, the crawler extracts content from the blocks using string matching functions. These functions along with the mapping between tags and blocks learned in the first step provide iCrawler with considerable time and storage efficiency. More specifically, iCrawler performs 14 times faster in the second step than in the first step. Furthermore, iCrawler significantly decreases storage costs by 57.10% when compared with the texts obtained through classical HTML stripping. Copyright (c) 2013 John Wiley & Sons, Ltd.Öğe A hybrid approach for extracting informative content from web pages(Elsevier Sci Ltd, 2013) Uzun, Erdinc; Agun, Hayri Volkan; Yerlikaya, TarikEliminating noisy information and extracting informative content have become important issues for web mining, search and accessibility. This extraction process can employ automatic techniques and hand-crafted rules. Automatic extraction techniques focus on various machine learning methods, but implementing these techniques increases time complexity of the extraction process. Conversely, extraction through hand-crafted rules is an efficient technique that uses string manipulation functions, but preparing these rules is difficult and cumbersome for users. In this paper, we present a hybrid approach that contains two steps that can invoke each other. The first step discovers informative content using Decision Tree Learning as an appropriate machine learning method and creates rules from the results of this learning method. The second step extracts informative content using rules obtained from the first step. However, if the second step does not return an extraction result, the first step gets invoked. In our experiments, the first step achieves high accuracy with 95.76% in extraction of the informative content. Moreover, 71.92% of the rules can be used in the extraction process, and it is approximately 240 times faster than the first step. (C) 2013 Elsevier Ltd. All rights reserved.