Crawling konusunda faydalı bir servis hakkında bilgi vermek için bu başlığı açıyorum. Yazdığınız crawler botlarını bir internet sitesinin içeriğini taramak için gönderdiğinizde bir yerden sonra site muhtemelen sizi tek IP adresinden çok sayıda request yapmaktan dolayı banlayacaktır. Bu sorunun dolambaçlı çözümleri olsa da Crawlera ile proxy servislerini kullanarak crawler'larınızı herhangi bir aşıma takılmadan kullanabiliyorsunuz.
Crawlera'nın kullanımı için yazdığınız crawler'ları Scrapinghub üzerinden Crawlera'ya göndermeniz gerekiyor. Gerekli IP değişimlerini ve proxy servislerini sistem otomatik olarak arka planda gerçekleştirdiği için request saymakla zaman kaybetmenize gerek kalmamış oluyor.
Crawlera ücretli bir servis, bu yüzden sadece gerekli olan projelerde kullanmanızı öneririm.
Not: Eskiden crawlera olan bu servisin adı Smart Proxy Manager olarak güncellenmiş. Zyte'nin sitesinden güncel kullanımını ve ücretlerini görüntüleyebilirsiniz.
Editör editi: sitedeki bazı diğer benzer yazılar için;
bkz: Scrapy crawling işleminde sonraki sayfaya geçmek
bkz: Scrapy Projesi Github'a Nasıl Eklenir?
bkz: Scrapy şablonları ve kullanım amaçları
bkz: Web Scraping Nedir?
bkz: Scrapy Nedir ve Nasıl Kullanılır?
bkz: Web Scraping ile Neler Yapılabilir? Örnek Scraping Projeleri