메뉴 건너뛰기

웹에서 하는 R 통계

통계학으로 언어학적 현상을 분석하고자 합니다.
분석 방법은 로지스틱 회귀분석입니다.
*분석 목적은 각 독립변수가 단어A와 단어B의 사용에 얼마나 유의한 영향을 미치는가를 알아보는 것입니다.
로지스틱 회귀분석은 현상 예측보다는 현상 분류의 목적으로 이용하고자 합니다.

독립변수는 몇가지 정해 놓았는데요.
그전에 표본 크기와 추출 방식에 관하여 질문드립니다.

예를 들어
대규모 언어 자료에서 단어A와 단어B의 용례가 각각 8,000건, 12,000건 발견되었습니다.
이것들을 전부 독립변수에 코딩하기는 어려울 것 같아
일부만을 분석하여 전체 경향을 나타내기 위하여
표본추출을 실시하고자 합니다.

여기에서 몇 가지 궁금한 점이 있습니다.

표본 크기는 클수록 좋다고 합니다만
각각의 표본을 최소한 각각 얼마씩 추출해야 하는지요?
각각에서 동일한 표본 수를 취한다면(예를 들어 300건씩)
A와 B의 총 용례 수가 다르기 때문에
정확하지 않은 결과가 나올 것 같습니다.

그래서 현재 두 가지 방식 중에 고민하고 있습니다.
(조건은 신뢰수준 95%, 표본오차 5%일 경우입니다)

1. 모집단1인 단어A에서 신뢰수준 95%, 표본오차 5%인 367건,
모집단2인 단어B에서 신뢰수준 95%, 표본오차 5%인 372건을 무작위 추출하는 방법.
→367건의 용례를 0, 372건의 용례를 1로 종속변수를 꾸린다.

2. 단어A와 단어B의 총 용례 수가 20,000건이므로 이것을 모집단으로 본다면
신뢰수준 95%, 표본오차 5%에서 총 377건이 필요하므로
이것을 다시 비례식으로 계산하여
단어A에서 151건, 단어B에서 226건을 무작위 추출하는 방법.
→151건의 용례를 0, 226건의 용례를 1로 종속변수를 꾸린다.

▶이중에서 표본 크기를 어떻게 보아야 하는지요?
1번이 맞는지, 2번이 맞는지, 아니면 전부 틀렸고 다른 방식으로 추출해야 하는지 궁금합니다.

▶둘의 용례 수가 달라도 로지스틱 회귀분석은 가능하겠지요?

▶그리고 이렇게 일부만을 분석하여 전체 경향을 나타낸다고 한다면
가중치라는 것을 부여하여 다시 계산해야 하는지도 궁금합니다.
(가중치의 개념은 아직 공부가 많이 부족합니다)

▶이렇게 추출하는 방식을 군집추출법이라고 하나요, 아니면 층화추출법이라고 하나요?



혹시 이중에서 무언가 제가 잘못 알고 있는 부분이 있다면 지적 부탁드립니다.

읽어주셔서 감사합니다.
번호 제목 글쓴이 날짜 조회 수
공지 묻고답하기 게시판을 운영합니다 [1] cardiomoon 2015.04.20 633
412 통계 초보 질문있습니다(저에게는 매우 어려운 질문입니다.) file 이스라 2019.01.22 122
411 변수를 변경하는데 질문이 있습니다. [2] 최00 2019.01.21 419
410 NRI, IDI... 쑤니 2019.01.14 40
409 안녕하세요. K-M 곡선에서 censored mark에 대해서 문의드립니다. 간간해요 2019.01.14 64
» 로지스틱 회귀분석의 표본 추출에 관하여 문의드립니다 TAOKAKA 2019.01.12 35
407 안녕하세요~ 통계 질문드립니다. [3] 김두영 2019.01.04 72
406 ggplot2에 관하여 쑤니 2018.12.30 148
405 ios bnmy6581 2018.12.28 117
404 Incidence rate 그리는 방법 ? [1] 심심심심 2018.12.25 73
403 Box plot 그래프를 그리고 싶은데요. [2] file 알은어려워 2018.12.25 66
402 knit PDF 및 ztable에서 표 출력에 대하여 질문드립니다. [5] file zepiros15 2018.12.22 69
401 생존분석에서 연속형변수의 cutpoint에 대해 질문드립니다. [2] zepiros15 2018.12.17 58
400 로지스틱 - stepwise backward regression 외의 방법이 가능한지요? [2] 트루로맨스 2018.12.16 77
399 교차분석이 가능한가요? [5] 윤이아빠 2018.12.14 74
398 로지스틱 회귀분석에서 신뢰구간의 표기 [1] BISONG 2018.12.07 67
397 로지스틱 회귀분석에서 독립변수가 범주형 번수일때 OR [3] jh100 2018.12.04 133
396 데이터 자동생성 기능 [2] R마니 2018.12.03 261
395 Raw 데이터를 표형태로 표현 방법 문의합니다. [1] 끝내주기 2018.11.23 102
394 교수님께, survival curve 오류 관련해서 질문드립니다. [2] file 통계장님 2018.11.21 95
393 pubmed wordcloud kaiross 2018.11.18 62