Skip to menu

안녕하세요, 

R 배우고 있는 학생입니다.. 

 

다름이 아니고

로지스틱 회귀분석을 돌렸는데

아래와 같이 변수명이 아닌, 변수값들이 우르르 떠서...

혹시 원인을 알 수 있을까요...??

확인 부탁 드립니다..ㅠ.ㅠ

 

+ 추가로  y 값들은 반드시 0 이상 1 이하이어야 합니다 >> 이 부분은 어떻게 해결하면 좋을까요..?

 

이유가 뭘까요.PNG

 

 

>> 코드값

 

data <- read.csv(file = file.choose())

str(data)

 

table(is.na(data))

colnames(data)

 

data <- data[, -c(1,2,6,10,17,18)]

colnames(data)

table(is.na(data))

 

table(is.na(data$YM))

table(is.na(data$GENDER))

table(is.na(data$SCTR_CD))

table(is.na(data$LN_CD_1))

table(is.na(data$LN_CD_2))

table(is.na(data$LN_AMT))

table(is.na(data$LAST_LOAN_CNT))

table(is.na(data$LAST_LOAN_AMT))

table(is.na(data$LAST_LOAN_CNT_2ND))

table(is.na(data$LAST_LOAN_AMT_2ND))

table(is.na(data$MM_CARD))

table(is.na(data$BAD_YN))

 

colnames(data)

data <- data[, -c(11)]

 

colnames(data)

table(is.na(data)) #결측치 없음 확인

 

table(data$BAD_YN)

install.packages("sampling")

library(sampling)

 

stratified_sampling <- strata(data, stratanames = c("BAD_YN"), size =c(286,286),

                              method="srswor")

 

st_data <- getdata(data, stratified_sampling)

table(st_data$BAD_YN)

 

library(caret)

train <- createDataPartition(st_data$ID, p=0.7, list=FALSE)

 

td <- st_data[train,]

vd <- st_data[-train,]

 

colnames(td)

td <- td[, -c(12,13,14)]

vd <- vd[, -c(12,13,14)]

 

colnames(td)

 

str(td)

 

td$GENDER <- as.factor(td$GENDER)

td$SCTR_CD <- as.factor(td$SCTR_CD)

td$LN_CD_1 <- as.factor(td$LN_CD_1)

td$LN_CD_2 <- as.factor(td$LN_CD_2)

td$BAD_YN <- as.numeric(td$BAD_YN)

td$BAD_YN[td$BAD_YN == 'Y'] <- 1

td$BAD_YN[td$BAD_YN == 'N'] <- 0

 

vd$GENDER <- as.factor(vd$GENDER)

vd$SCTR_CD <- as.factor(vd$SCTR_CD)

vd$LN_CD_1 <- as.factor(vd$LN_CD_1)

vd$LN_CD_2 <- as.factor(vd$LN_CD_2)

vd$BAD_YN <- as.factor(vd$BAD_YN)

vd$BAD_YN <- as.numeric(vd$BAD_YN)

vd$BAD_YN[vd$BAD_YN == 'Y'] <- 1

vd$BAD_YN[vd$BAD_YN == 'N'] <- 0

 

str(td)

# 로지스틱 회귀분석

model <- glm(BAD_YN ~., data=td, family=binomial)

summary(model)

No. Subject Author Date
1194 짝지은 자료 (PSM 등 매칭을 통한 자료)에서의 COX(생존분석)방법 의학통계 2019.01.23
1193 Spearman partial correlation이 궁금합니다. file 정형슬관절통계 2016.09.20
1192 r studio 관련하여 문의드립니다. [1] jera0131 2020.06.15
1191 생존분석 중 샘플수에 관한 질문 [1] file 니모 2017.12.26
1190 cochrane armitage test 질문드립니다. [1] 달려라하마 2018.04.02
1189 Error 문구에 대한 질문입니다. [1] 비버마다 2020.04.02
1188 서바이벌 분석 등을 할때 하위그룹 분석을 할수는 없는지요? [1] ihkmd 2017.05.10
1187 shapefile에서 dataframe으로 변환할 때, 법정동 코드를 남기는 방법이 궁금합니다. 건이두 2019.09.02
1186 moonBook2 install중 error message [2] hawk1227 2016.06.27
1185 다중 선형 회귀 분석에서 "relative importance of predictor variables"에 관해 질문드립니다. [2] Ikarus86 2016.07.13
1184 패키지가 잘 설치되지 않아 문의드립니다! [3] file Grant 2015.04.10
1183 美 IBM 인공지능(AI) ‘닥터 왓슨’ 적용···"진단 정확도 90% 이상" [1] Ben 2016.09.06
1182 R package 질문입니다. [1] kenny 2016.09.30
1181 [사이트 소개] Rdatasets - An archive of datasets distributed with R [1] fermat39 2016.01.08
1180 후원금 입금 관련? [2] duehdaud 2019.06.25
1179 정회원으로 가입하였습니다. [1] leesav 2021.07.19
1178 ROC에서 여러설명변수 갖는 model간 비교 [5] alse 2016.07.11
1177 ORplot 함수에서요.. [2] 매직하마 2018.02.25
1176 해외에서 사용중 접속이 잘 안되서 문의드립니다. [2] Rooney 2017.02.15
1175 생존분석 결과가 다운되지 않습니다. [2] 아라리 2018.05.02