Tesekkurler.
Şöyle bir duyuru açmıştım vaktiyle: www.eksiduyuru.com
Arkadaşın söylediği şeyi sonrasında yerine getiremedim, ne yalan söyleyeyim biraz karışık geldi. Eğer anlarsanız ve uygulayabilirseniz bir tarif rica edeceğim :)
su an pcde degilim pcye gectigimde ustteki entry'nin nasil yapilacagini anlatabilirim. Su an calismiyo olabilir sozluk url yapisi tekrar degisti ise.
github.com
eksi sozlukte eksiyen adam, vallahi çok makbule geçer... Teşekkürler şimdiden :)
@eksi sozlukte eksiyen adam,
Calistirinca soyle bir hata aliyorum:
Traceback (most recent call last):
File "xxx/eksi_sozluk_entry_yedekleyici.py", line 88, in <module>
ey.start_fetching()
File "xxx/eksi_sozluk_entry_yedekleyici.py", line 69, in start_fetching
tarih = entry_tree.find(".//time").text.strip()
AttributeError: 'NoneType' object has no attribute 'text'
Ek olarak, eksisozluk sol frame'deki ilk sayfaya pagination yerine "daha da" diye sacma bir sey koydugu icin tum sayfalari da alamayacak gibi duruyor. "daha da" linkini tikladiktan sonra normal sayfa sayisini gorulebiliyor.
bi inceliyim şimdi, muhtemelen yine bir şeyleri değiştirmişler.
selam,
scripti tekrardan güncelledim, kendi entrylerimin 22 sayfasını da yedek olarak aldı. tekrar deneyebilir misiniz, github'dan tekrar indirmeniz gerekli.
github.com
Cok tesekkur ederim. Eksisozlukteki yaklasik 50 sayfalik yedegi basariyla aldim.
Daha da gelistirmek isterseniz su geribeslemeleri onerebilirim:
- Koda goz attigimda nedenini cikartamadim ama surmesi gerektiginden cok uzun surdu. Entry basina yaklasik 14 saniye almis. Yani benim yedeklemem toplamda 9 saati gecti.
- Duzenli yedek almaya elvermek icin yedeklenecek sayfa sayisi parametre olarak tanimlanabilir.
- Linkleri html etiketleri ile birlikte almis gozukuyor.
@sevgikusunkanadinda,
windows'a asina olmadigim icin birebir tarif edemiyorum ama "python dosyasi calistirma" seklinde tercihen ingilizce aratirsaniz calistirmak icin gerekli adimlara ulasmaniz daha kolay olur diye dusunuyorum.
github baglantisindaki .py uzantili dosyayi indirip bu dosyayi calistirmaniz gerekli.
eğer windows'taysanız, python runtime'ından dolayı windowsta daha yavaş çalıştığnı okumuştum. ben 25 sayfalık yedeği 15-20 dakikada almıştım. diğer dediğin önerileri ister github'ta issue olarak açabilirsin canı isteyen de fixleyebilir, github hesabın yoksa ben issue'yu açıyorum.
zaten bu html'den crawl etme işleri sakat, en ufak bir şeyi değiştirseler bozuluyor her şey.