Yazar "Aslanyürek, Murat" seçeneğine göre listele
Listeleniyor 1 - 2 / 2
Sayfa Başına Sonuç
Sıralama seçenekleri
Öğe Kümeleme Performansını Ölçmek için Yeni Bir Yöntem ve Metin Kümeleme için Değerlendirmesi(2021) Aslanyürek, Murat; Mesut, AltanBu çalışmada kümeleme performansını ölçmek için kullanılabilecek alternatif bir yöntem önerilmiştir. Önerilen yöntemin tutarlılığını test etmek için, Wikipedia makale özetlerinden oluşan iki farklı veri kümesinde k-Means, k-Medoids ve CLARANS yöntemleri ile kümelemeler yapılmış ve hem önerdiğimiz yöntem hem de mevcut yöntemler ile performans ölçümleri hesaplanmıştır. Sadece İngilizce özetlerin olduğu ilk veri kümesi farklı sayıda kümelere ayrılarak test edilmiştir. Özetlerin içeriği hakkında önceden bilgi sahibi olunmadığı için ne kadar doğru kümelendiğini değerlendirmek için dahili yöntemler olan Silhouette, Calinski-Harabasz ve Davies-Bouldin indeksleri kullanılmıştır. 6 farklı dile ait Wikipedia özetlerini içeren ikinci veri kümesi ise özetlerin dillerine göre sınıflanmış olması için kümeleme yöntemleri ile 6 kümeye ayrılmıştır. Veri kümesindeki metinlerin hangi dile ait olduğu önceden bilindiği için kümelemenin başarısı hem dahili hem de harici yöntemler ile ölçülebilmiştir. Veri sıkıştırma algoritmalarının birbirine benzer metinlerin olduğu bir dosyayı, birbirinden farklı metinlerin olduğu dosyaya göre daha iyi sıkıştırdığı bilindiğinden, sıkışma oranının alternatif bir değerlendirme ölçütü olarak kullanılabileceği önerilmiştir. Silhouette, Calinski-Harabasz ve Davies-Bouldin indeksleri gibi dahili yöntemlere göre çok daha hızlı hesaplanabilen önerilen Sıkıştırma Oranı İndeksi (SOİ), 4 farklı sıkıştırma algoritması ile test edilmiş ve ikinci veri kümesinde kullanılan 9 harici yöntemle de aynı sonuçları vermiştir.Öğe Makine öğrenmesi ile elde edilen statik sözlükleri kullanarak kısa metin sıkıştırma(Trakya Üniversitesi, 2021) Aslanyürek, Murat; Mesut, AltanBu tez çalışmasında kısa metinleri yüksek oranda sıkıştırmak için statik sözlük kullanan Statik Sözlük Sıkıştırma (SDC: Static Dictionary Compression) yöntemi ve bu yöntemde kullanılacak statik sözlüklerin oluşturulması için yinelemeli olarak kümeleme işlemi yapan bir model önerilmiştir. Bu modelde oluşturulacak statik sözlük sayısı, bir sınıflandırma algoritması ve bazı kurallara dayalı olarak belirlenir. Statik sözlüklerin oluşturulması için önerilen modelde kullanılmak üzere en uygun kümeleme ve sınıflandırma yöntemlerini belirlenmek amacı ile 6 farklı dildeki Wikipedia makale özetlerinden oluşan metinler boyutlarına göre her dil için 5 farklı gruba ayrılmıştır. Test edilen BIRCH, k-Ortalama, Ortalama Bağlantı, Tam Bağlantı, Tek Bağlantı ve Ward kümeleme yöntemlerinden hem kümeleme hızı hem de kümeleme başarısı olarak k-Ortalama yönteminin en uygun olduğu görülmüştür. Kümeleme performansını ölçmek için metinlerin sıkıştırılma oranının kullanılabileceği gösterilerek, kümeleme performansını ölçmek için yeni bir ölçüt olan Sıkıştırma Oranı İndeksi (SOİ) de önerilmiştir. En uygun dile göre sınıflandırma yöntemini belirlemek için ise birçok makine öğrenmesi yöntemi, Kelime Tabanlı İstatistiksel Yöntem (KTİY), fasttext ve langdetect sınıflandırma yöntemleri test edilmiştir. Geliştirilen metin sıkıştırma yönteminin kısa metinleri dile göre sınıflandıran ilk aşaması için en uygun ve en hızlı sınıflandırma yönteminin KTİY olduğu yapılan testler ile belirlenmiştir. SDC, 5 farklı boyut grubundan oluşan veri setleri kullanılarak Gzip, Bzip2, Zstd ve PPMd veri sıkıştırma yöntemleri ile karşılaştırılmıştır. SDC'nin diğer yöntemlerle birlikte kullanılmasının sıkıştırma oranı üzerindeki etkisi de araştırılmıştır. '0-199' ve '200-499' bayt boyutundaki kısa metinlerde SDC diğer yöntemlerden daha iyi sıkıştırma oranları vermiş, '500-999', '1000-1999' ve '2000 üstü' boyut gruplarında ise diğer yöntemlerin sıkıştırma oranını arttırmıştır. SDC ayrıca kısa metinleri sıkıştırmaya özgü yöntemler olan shoco, b64pack ve smaz yöntemleri, statik sözlük kullanması ile kısa metinlerde başarılı olan genel amaçlı sıkıştırma algoritması Brotli ve eğitim ile oluşturulan statik sözlüğü kullanan Zstd versiyonu ile de karşılaştırılmıştır. Sıkıştırma oranı açısından Zstd hariç diğer yöntemlere üstünlük sağlayabilmiştir.