[SPAM FILTER] 간단한 스팸 분류기
이번 포스팅에서는 spamassassin에서 제공하는 스팸 메일과 정상 메일 데이터셋을 가지고 스팸 메일을 분류하는 간단한 머신 러닝 모델을 만들어 보았습니다. 실제로 사용되고 있는 스팸 메일 분류기는 RNN (Recurrent Neural Network)등을 응용한 딥 러닝 모델을 사용하여 높은 정밀도와 효율성을 보여주고 있습니다. 이번에 구현할 스팸 필터 분류기는 주어진 메일에 들어있는 단어들의 집합만을 가지고 메일을 분류하는 모델이기 때문에, 단어의 맥락이나 전체 글의 맥락까지 고려할 수 있는 딥러닝 기반 RNN 스팸 메일 분류기보다는 효율적이지는 못하지만, 그래도 테스트 셋에서 꽤 정밀한 결과를 나타낸다는 점과, 간단한 머신 러닝 모델에 대한 전반적인 파이프라인을 공부한다는 점에서 의의가 있습니다..
2020.04.15