처음 사용하는데 데이터 전처리가 어렵습니다.
홈페이지에 혹시 공지가 있는지 수시간째 헤매도 있는데 못 찼겠습니다.
혹시 있다면 어래와 같은 질문은 하지 않아도 될 것 같습니다만.....
1. 웹에서하는 R2.0에서는 변수 하나씩 지정하여 숫자를 factor로 바꿀수 있게 되어있지만 이렇게 코딩한 변수가 많아 너무 시간이 많이 걸립니다.
여러변수를 한꺼번에 바꿀 수 없는지요?
2. 데이터전처리에 대한 예문이나 예제를 구할 수 있을지요?
3. 문자는 자동으로 factor로 인식하는지요? 그렇다면 excel에서 T,F로 바꿔서 바꾸는 것이 좋을 것 같습니다.
4. CSV로 올릴때, 숫자가 3개 또는 5개 미만이면 자동으로 factor로 인식하게 하는 것은 어떨지요?
5. NA를 .으로 표시해놨습니다. 결측치 전처리는 어떻게 해야하는지요?
감사합니다.
Comment 1
-
cardiomoon
2016.04.02 23:40
1) 제가 쓴 "의학논문작성을 위한 R통계와 그래프" 책 155페이지에 보시면 문자열/숫자로 입력된 변수를 범주형변수로 바꾸기 라는 내용이 있고 158페이지에는 범주형변수를 문자열/숫자형 변수로 바꾸기 라는 내용이 있습니다. 참조하십시요.
2) 178페이지에 보시면 NA값을 평균값으로 입력하기 라는 내용이 있고 161-177에 걸쳐 누락된 자료를 처리하는 최신기법인 multiple imputation에 대해 다루고 있습니다.
3) 문자는 문자로 character로 인식이되며 통계처리시 factor처럼 처리됩니다.
4) 기본적으로 고유값이 6개 미만인 값은 표만들기 할때 범주형변수로 처리됩니다. 이 값은 조정 가능합니다.
5) .로 표시된것을 일괄하여 바꾸셔야 하겠는데요...결측치는 비워 놓으시길 바랍니다.^^