Experiment Lagi - Crawler!

Artikel ini adalah lanjutan experiment dari sini , tapi kali ini bukan sosial media. Untuk mendukung project selanjutnya, saya membuat sebuah crawler yang nantinya berfungsi untuk memberi makan fungsi sosial media di bot Syndicate.

Bagaimana cara kerjanya?

 

Fungsi crawler ini menggunakan XPath dan Regex untuk mencari element yang ingin di ambil atau di telusuri, bagi yang belum tau apa itu XPath dan Regex beserta cara penggunaannya, silahkan googling sendiri.
Oke lanjut, misalnya saya ingin mengambil list artikel dari prettydesigns*com

Dengan kekuatan inspect element, saya bisa melihat element dari data yang saya inginkan, yaitu list artikel. Saya akan menggunakan Regex <article(?s).+?article> untuk extract data. 
Lah, Regex <article(?s).+?article> maksudnya apa? Sebut saja itu selector untuk data yang di bungkus oleh element <article> Data </article>

Terus? Udah?! Nope. Data yang saya dapat dari proses sampai sini belum ada gunanya, jadi saya ingin dapatkan lebih, saya ingin mendapatkan semua artikel yang ada di halaman home beserta yang ada di halaman selanjutnya. Jika cara di atas menggunakan Regex untuk ambil list artikel, kali ini saya akan menggunakan XPath untuk extract URI dari artikel yang ada di halaman home, dan pagination. 
XPath yang akan saya gunakan untuk kedua proses tersebut adalah
a. link artikel = //div[contains(@id, 'content')]/article//h2/a/@href
b. link pagination = //div[contains(@class, 'ct-paginate')]/a/@href

Tau dari mana kalo XPath a. bisa buat ambil link artikel? Coba perhatikan struktur html pada gambar dibawah

Bagaimana dengan fungsi symbol? Google it!

Dengan k2 XPath di atas, saya akan gunakan Crawler pada bot syndicate saya untuk mengambil semua artikel, huehuehue

Kenapa ada checkbox hari di bawah kolom domain? Saya ingin fungsi crawler ini aktif otomatis di hari yang saya sudah tentukan, yang jelas hari dimana target saya update konten huehe.
Dan kenapa ada menu profile? Profile berisi daftar website atau halaman yang menjadi target saya, contoh; website semi wallpaper yang mengarahkan gambar gambar di halaman artikel ke halaman attachment bila di klik.

Untuk tools, saya menggunakan 
- regex101.com, untuk test regex
- XPath Helper, plugin chrome & opera untuk test XPath
- Inspect element, fungsi browser untuk... Inspect element laugh

08-08-2018 - cara scraping website,cara scraping situs, cara scraping halaman

Tertarik? Ingin bertanya?

Jika halaman ini masih belum menjawab pertanyaan dan keraguan kamu, silahkan bertanya terlebih dahulu. Contact person ada di halaman profile.

Atau

Jika kamu sudah yakin

Atau

Mau mencoba terlebih dahulu? Trial 3 hari