지금 머신러닝 공부를 하는데 결과가 이상하게 나와서 한번만 봐주실 수 있을까요??ㅠㅠ
나이브 베이즈 분류기로 댓글의 긍정 부정을 판별하려는데 클래스 불균형이 심각하면 그게 결과에 많이 영향을 미치나요?
만일 긍정과 부정이 9:1인 train데이터를 가지고 모델을 만들고 test데이터에 대해 prediction하는 경우에 컴퓨터는 무조건 긍정으로 판별하여
그 결과의 정확도가 test데이터의 부정label 갯수만큼 떨어지는것인지 궁금합니다.
제가 만든 데이터셋과 R script파일을 첨부합니다.. 제발 한번만 봐주세요ㅠㅠ
Comment 1
-
cardiomoon
2018.06.05 08:57
코드를 살펴보았는데 별 문제 없어보입니다.
그런데 질문을 이해 못하겠는데요. 전체 데이터의 긍정과 부정이 약 9:1인 데이터를 가지고 7:3으로 training set와 test set로 나누어 모델을 만들고 test데이터에 대해 prediction하는 경우에 약 9:1로 나올 것으로 예상됩니다. 코드의 결과도 약 9:1로 나오는데요?