[]

Gelecege Yönelik Tahmin Modeli Olusturma

Öncelikle hayirli forumlar :)

Yüksek lisans tezim icin gelecege yönelik analiz yapmam isteniyor. Örnekle daha iyi anlayacaginizi varsayarak direk örnege geciyorum.

Kredi müsterilerinin yas, cinsiyet, meslek grubu, medeni durumu, cekmis oldugu kredi tutari, eger gecikmesi varsa gecikme sayisi gibi bir cok parametresi oldugunu varsayalim. Amacim sorunlu müsterileri yani yaasal takibi baslamis olan müsterileri inceleyip ileriye yöenlik tahmnin modeli gelistirmek. Mesela Eger müsteri bosanmis ve turizm sektöründe calisiyorsa bu müsterinin krediyi geri ödememe ihtimali %60 gibi. bu sekilde bir denklemi/algoritmayi nasil kurabilirim, ya da hangi istatistik programini kullanabilirim? daha önce hic istatistik programi kullanmadim.

Yardimlariniz icin simdiden tesekkür ederim.

 
öncelike parametre sayını mümkün olan en düşük sayıda tut. ne kadar az parametre o kadar kolay iş.

eğer tek değişkenin varsa box jenkins metodolojisi, iki değişkenin olursa bunların nedenselliklerine bakıp eş bütünleşme analizi, 2 ve daha fazlası için ise johansen eşbütünleşme analizi yapman gerekecek.

stata, eviews veya spss gibi paket programlar işini görür.
  • lucky strike  (20.05.16 21:56:37) 
Oyyy, bunda çok güzel Yapay Sinir Ağları kullanılır ve bununan model regresyon modelleri ile karşılaştırılır. Özellikle dinamik veya 'recurrent' neural network mis gibi sonuç verir. En rahat Matlab veya R'da kodlanır.
Ek: Tabii ki mis gibi sonuç vereceği garanti edilemez ama tipik bir örnek.

Ek olarak daha da kompleks algoritmalar ve daha iyi sonuçlar için Markovian Neural Network daha çok işe yarar. (Geçmiş-gelecek ilişkisi ve zaman beklemeleri (lag'ler) olduğunda)
  • aychovsky  (20.05.16 22:04:41 ~ 22:10:38) 
su su algoritmalar iyidir denilemez, bence bir cogu denenip cross validate ile karsilastirilmalidir. bu soyledigim, unsupervised learning i de kapsar. hadi neural network ile yaptin diyelim, denemeden, random forrest in daha iyi bir performans gostermeyecegini soyleyebilir misin?


  • scars dont fade  (20.05.16 22:09:27 ~ 22:10:17) 
Tabii ki söyleyemem, veri çok lineer de çıkabilir. Boşu boşuna NN de kurmuş olabilirim. Sadece çok tipik bir örnek olduğunu söylüyorum ve regresyon tipi modellerle karşılaştırılabilir diyorum.. O yüzden 'garanti edilemez' dedim. Cross validation'sız olur mu hiç?

Daha üç hafta önce benzer bir tahmin modeli kurdum ve random forest Neural Network'ten daha iyi çıktı ama geçmiş-gelecek ilişkisi hakkında bahis açılırsa Markovian veya Recurrent NN için belirli bir miktara kadar bahse girerim.

Edit: good clean fun haklı. Yeterince veri olacağını varsaydım doğrudan.
  • aychovsky  (20.05.16 22:13:11 ~ 22:23:58) 
Amac onemli. Amac tahmin etmek ise parametlerleri dusuk sayida degil, aksine mumkun olan en yuksek sayida tutmaniz lazim. Amac teori olusturmak ise o zaman parametleri dusuk sayida tutmalisiniz.
Oncelikle ne denklem ne algoritma ne programla baslayacaksiniz. Sorunuzdan belli ki ilk yapacaginiz adim kaynak edinmek. Hocaniza sorun bu analizlerin nasil yapildigina dair size bir kaynak onersin. Kolay gelsin.

  • f_d  (20.05.16 22:19:49) 
Veri miktarin birkac binden az ise yapay sinir agi kullanmani önermem (overfitting muhtemel). Kullanicam diyorsan regularizasyon sart. Logistic regression cak gec bana kalirsa. Python scikit-learn paketi ile 5 satirda halledebilirsin.

Kategorik degiskenlerini (cinsiyet, medeni durum, meslek vb.) one-hot vektör (toplam kategori sayisi - 1 tane 0, bir tane 1) olarak tanimlaman lazim. (R kullanicak isen factor otomatik halleder)

Verini training ve test olmak uzere parcalara ayirman sart. Hatta cross-validation'i arastir ve 10-fold CV uygula. Diger turlu sonucunun ne bilimsel ne de uygulama olarak hicbir gecerliligi olmaz.
  • good clean fun  (20.05.16 22:22:18) 
Recurrent neural network kullanmalik bir durum yok. Sequence learning falan yok bu problemde. RNN falan kullanmaya kalkmayin.


  • good clean fun  (20.05.16 22:26:02) 
@good clean fun

yillara gore kredi durumu, sequence learning kullanmak icin yeterli gerekce olamaz mi?
  • scars dont fade  (20.05.16 22:52:52) 
@scars dont fade

Olamaz.

Teori: Bir insanin kredi notu zaten yazarin bahsettigi degiskenler ile hesaplanan/ögrenilen bir skor. Zaten ögrenilmis bir feature'dan tekrar bir sey ögrenmeye calismak hemen hemen her zaman bilgi kaybina neden oluyor (Geoffrey Hinton, 2006 makalesi - deep learning'in mantigi tamamen buna dayali).

Pratik: Bir insanin en fazla 50-60 gözlemlik (yillik) kredi notu bilgisi olabilir. Bu kadar kisa seriler icin RNN kullanmanin hicbir mantigi yok.
  • good clean fun  (20.05.16 23:21:16) 
1
buraya yazılanların hakları Sir Anthony Hopkins'e aittir.
yazan eden compumaster, ilgilenen eden fader
modere edenler angelus, Artibir, aychovsky, baba jo, basond, compumaster, deckard, duyulmasi gerektigi kadar, fader, fraise, groove salad, kahvegibi, kaymaktutmayansicaksut, kibritsuyu, monstro, pandispanya, robin, ron dennis
bu sitede yazılanların hiçbiri doğru değildir. site içeriği küçükler için sakıncalı olabilir. yazılardan yazarları sorumludur. kaynak göstermeden alıntılanamaz. devlet tarafından atanmış bir kurumun internet üzerinde kimin hangi bilgiye ulaşıp ulaşamayacağına karar vermesi insan haklarına aykırıdır. web siteleri kullanıcıların istekleri doğrultusunda bağlandıkları yerlerdir. kullanıcılar isterlerse bir web sitesine bağlanmayabilirler. bu güçleri ve imkanları mevcuttur. bir kullanıcı bir siteye bağlanmak istiyorsa bu onun tercihi ve hakkıdır. bağlanmak istemiyorsa bu yine onun tercihi ve hakkıdır. halkın kendisine hizmet etmesi için görevlendirdiği kurumlar hadlerini aşıp halka neye ulaşıp ulaşmayacağını bilmeyen cahil cühela muamelesi edemezler. ebeveynlerin çocuklarını sakıncalı içeriklerden koruması için çok sayıda bedava ve ücretli yazılım mevcuttur. bu yazılımlar bir web tarayıcısını kullanmaktan daha karmaşık teknik bilgi gerektirmemektedir. devletin milletini küçük düşürmesi ve ebleh yerine koyması yasaktır. Skimlinks ile linkler üzerinden yönlendirme payı alınmaktadır.