[]

Web crawl yaparken atılmamak için kullanılan yöntemleri arıyorum..

Ahali,

Crawling işine de her nasıl olduysa bulaştım, konsept seviyesinde daha önce yapılan çalışmalarda kullanılan yöntemleri arıyorum.

Burada konsept seviyesinde tanımını açmak lazım, örneğin;
"crawl edilecek site "sen hangi browser'dan geliyorsun" diye sorabilir, bunun için bir kod yazmak lazımdır" şeklinde bilgiler arıyorum, kodu oturup ben yazmayacağım ama yazdırmam gerek. Tecrübesi olan birileri, tecrübelerini ya da ellerindeki kaynakları paylaşırlarsa sevinirim.

Şimdiden teşekkürler,

 
http istegi yapilirken tarayici user-agent diye bir deger kullanir, sunucu ile iletisirken, eger bunu bi tarayicininki ile ayni yaparsan, sunucu seni tarayici sanabilir,
cok hizli istek gondermekten kacinmalisin, yoksa seni bloklayabilir (ip bazli bekli)

  • tonakai  (26.04.13 14:32:29) 
tam aradığın şey değil ama şöyle bir şey de var bildiğim kadarıyla;

robots.txt isimli bir dosya barındırılır server'da. bu dosya site sahibinin "bak crawler kardeşim, al benim sitemde aramaya değecek, ya da izin verdiğim, kısımlar bunlar, bunlar senin işini görür buraları crawl et kafana göre" dediği bir dosyadır. bu dosyada belirtilmiş kısımlarını crawl edersen sen hangi browser'dan geliyorsun diye sormayabilir sana.
  • altikereyedi  (26.04.13 14:56:51) 
1
buraya yazılanların hakları Sir Anthony Hopkins'e aittir.
yazan eden compumaster, ilgilenen eden fader
modere edenler angelus, Artibir, aychovsky, baba jo, basond, compumaster, deckard, duyulmasi gerektigi kadar, fader, fraise, groove salad, kahvegibi, kaymaktutmayansicaksut, kibritsuyu, monstro, pandispanya, robin, ron dennis
bu sitede yazılanların hiçbiri doğru değildir. site içeriği küçükler için sakıncalı olabilir. yazılardan yazarları sorumludur. kaynak göstermeden alıntılanamaz. devlet tarafından atanmış bir kurumun internet üzerinde kimin hangi bilgiye ulaşıp ulaşamayacağına karar vermesi insan haklarına aykırıdır. web siteleri kullanıcıların istekleri doğrultusunda bağlandıkları yerlerdir. kullanıcılar isterlerse bir web sitesine bağlanmayabilirler. bu güçleri ve imkanları mevcuttur. bir kullanıcı bir siteye bağlanmak istiyorsa bu onun tercihi ve hakkıdır. bağlanmak istemiyorsa bu yine onun tercihi ve hakkıdır. halkın kendisine hizmet etmesi için görevlendirdiği kurumlar hadlerini aşıp halka neye ulaşıp ulaşmayacağını bilmeyen cahil cühela muamelesi edemezler. ebeveynlerin çocuklarını sakıncalı içeriklerden koruması için çok sayıda bedava ve ücretli yazılım mevcuttur. bu yazılımlar bir web tarayıcısını kullanmaktan daha karmaşık teknik bilgi gerektirmemektedir. devletin milletini küçük düşürmesi ve ebleh yerine koyması yasaktır. Skimlinks ile linkler üzerinden yönlendirme payı alınmaktadır.