Ajax tabanlı web sayfalarından veri çıkarımına bir yaklaşım
Abstract
İnternetin yaygınlaşmasıyla birlikte sanal ortama yüklenen veri miktarı oldukça
artmıştır. Bu verinin önemli bir bölümü web sayfaları aracılığıyla sunulmaktadır. Ancak
web sayfaları çoğu zaman sadece önemli olabilecek veriyi içermemekte ve gün geçtikçe
karmaşıklaşmaktadır.
Web veri çıkarımı (Web data extraction), değerli ve ilgi çekici bilginin web
sayfalarından çıkarılması işlemidir. Veri çıkarımı işlemi, makine öğrenmesi, doğal dil
işleme, arama motorları ve büyük veri seti gerektiren işlemler için önem arz etmektedir.
Çünkü birçok web sayfası, verilerin bilgisayar programları kullanılarak çekilmesini
sağlayan bir arayüz (örneğin; API – Application Programming Interface – Uygulama
Programlama Arayüzü) sunmamaktadır.
Web veri çıkarımı konusunda birçok mevcut çalışma düzenli ifade (regex)
kullanımı ya da DOM (Document Object Model) ağacının üretilmesi ve bu yönde
algoritmaları ortaya koymaktadır. Ancak ilerleyen teknolojiyle birlikte birçok web
sayfasının içeriği Javascript ile güncellenebilmektedir. Genel olarak AJAX olarak
adlandırılan bu teknolojiyle birlikte DOM ağacı sayfanın görüntülenmesi ve scriptlerin
işlenmesi sonucunda dinamik olarak değişebilmekte, hatta web sitelerinin tamamı bu
yöntemle (SPA – Single Page Application, Tek Sayfa Uygulaması) oluşturulabilmektedir.
Bu yüksek lisans tezinin amacı, AJAX veya benzeri istemci tabanlı dinamik içerik
teknolojileri kullanan web sayfalarında da belirli kural setleriyle daha hızlı veri çıkarımı
yapabilecek bir yaklaşım aramaktır. With the widespread use of the Internet, the amount of data loaded into the virtual
environment has increased considerably. An important part of this data is provided
through web pages. However, web pages often do not contain only the important data and
are getting more complicated day by day.
Web data extraction is the process of extracting valuable and interesting
information from web pages. The data extraction process is important for machine
learning, natural language processing, search engines and processes that require a large
data set. Many web pages do not offer an interface (for example; API - Application
Programming Interface - Application Programming Interface) that allows data to be
retrieved using computer programs, therefore extraction is needed.
Many current studies on the web data extraction topic discuss the use of regular
expressions (regex) or the generation of DOM (Document Object Model) trees and
algorithms. However, with the advancing technology, the content of many web pages can
be updated with JavaScript. With this technology, which is generally called AJAX, the
DOM tree can change dynamically as a result of displaying the page and processing
scripts. Even all of the web site can be created with this method (SPA - Single Page
Application).
This master thesis aims to seek an approach that can extract data faster with
specific rule sets on web pages using AJAX or similar client-based dynamic content
technologies.
Collections
- Tez Koleksiyonu [1250]