[]
naive bayes classifier
selamlar,
bir spam/non-spam filter yazıyorum. training safhasında elimdeki 240 mail'deki word'lerden naive bayes ile spam non spam classification yaptım. sorum şu: test data'sı içerisindeki bazı kelimeler trainin data'sında bulunmayabiliyor. normalde kelime bazlı olasılıklarını çarpıp spam non-spam değerlerinden yüksek olanı ile sonuca varmam gerekirken, test data'sındaki bazı kelimeler training'te bulunmadığı için bunlara nasıl davranmam gerektiği konusunda kafam karışık. bu kelimeleri tamamen yoksayıp işleme devam edebilirim ama training data'sında hiç olmayan kelimelerden kurulu bir test mail'i gelince bunun spam olup olmadığına nasıl karar vereceğim? test data'yı büyütmem aslında optimum sonuca götürür ama bunu yapmadan work around bir çözüm bulmam gerekmekte. ya da ben bir yerleri atlıyorum. nedir bunun çözümü?
bir spam/non-spam filter yazıyorum. training safhasında elimdeki 240 mail'deki word'lerden naive bayes ile spam non spam classification yaptım. sorum şu: test data'sı içerisindeki bazı kelimeler trainin data'sında bulunmayabiliyor. normalde kelime bazlı olasılıklarını çarpıp spam non-spam değerlerinden yüksek olanı ile sonuca varmam gerekirken, test data'sındaki bazı kelimeler training'te bulunmadığı için bunlara nasıl davranmam gerektiği konusunda kafam karışık. bu kelimeleri tamamen yoksayıp işleme devam edebilirim ama training data'sında hiç olmayan kelimelerden kurulu bir test mail'i gelince bunun spam olup olmadığına nasıl karar vereceğim? test data'yı büyütmem aslında optimum sonuca götürür ama bunu yapmadan work around bir çözüm bulmam gerekmekte. ya da ben bir yerleri atlıyorum. nedir bunun çözümü?
onun basit bir çözümü yok benim bildiğim kadarıyla. latent variable'lar kullanılabiliyor ya da smoothing yapılıyor courses.engr.illinois.edu
- galadnikov (03.01.15 19:37:05)
mailin headerlarına da bakıyormusun?
- selam (04.01.15 07:39:42)
1