안녕하세요, 현재 연구용역과제로 연구동향분석을 하고 있는데요,
분석을 위해 논문 PDF 파일을 텍스트(TXT) 파일에 옮기니, 한 문장 단위로 잘 끊어지지가 않아서요
예를 들어,
철수는 밥을 먹습니다.
영희는 김치를 먹습니다
이렇게 나와야하는데,
철수는 밥을
먹습니다
영희는 김
치를 먹습니다
이렇게 끊어져서 '김치'같은 원래 하나인 단어마저 단어로 인식되지 않을 것 같은데
이런 상태로 분석을 진행해도 결과에 지장이 없을까요? (분석은 토픽모델링, 네트워크 분석 진행할 예정입니다)
아니면 R에서 문장을 연결해주는 그런 기능이 있을까요?
지금 하나하나 문장 이어붙이는 노가다 중인데 너무 번거로워서요..
Comment 5
-
cardiomoon
2023.03.31 13:05
-
맛있는호랑이
2023.03.31 15:03
안녕하세요. 제가 답변을 드릴 수 있을 것 같은데, 사실 텍스트파일이 어떻게 저장되어있느냐에 따라 다릅니다.
1. \n과 같은 개행문자가 있는 경우, stringr 패키지의 str_replace 함수 같은걸로 지워주는 작업을 해주면 됩니다.
2. 문장을 종결하는 어미에 dot(.), question mark(?), exclamation mark(!) 등, 문장 종결을 알리는 부호가 있는 경우, 이를 기준으로 해서 문장별로 리스트나 딕셔너리에 따로 담아 관리하면 조금 더 편합니다.
3. 그런데 위 문서와 같이 종결 부호가 없는 경우는 조금 복잡해지는데요, 많이 쓰이는 방법은 형태소 분석을 한 다음에, 종결을 알리는 어미가 왔을 때, 임의로 부호를 붙여준 다음, 문장별로 리스트나 딕셔너리에 따로 담는 방법입니다.
괜찮으시다면 가지고 계신 파일을 첨부해주시면, 제가 예시 코드를 만들어 드릴게요. :)
-
vtlbtl
2023.04.03 09:25
헛 친절하고 자세한 답변 감사드립니다. 파일은 txt 파일 말씀하시는거죠? 예시로 하나 첨부드리겠습니다.
-
맛있는호랑이
2023.04.03 21:47
제가 업무시간에는 봐드릴 수가 없어서 저녁에서야 봤네요. 아래 링크를 참고해보세요~
참고문헌 표시 1) 같은 것은 전처리를 하시리라 생각해서 일단 놔두었습니다.
https://colab.research.google.com/drive/1JC1qcDw2dNnaXGmr_HBrLYD-rtz0jj1y?usp=sharing -
vtlbtl
2023.04.07 11:08
답변 정말 감사드립니다.
일이 있어서 답이 늦었네요.
그런데 중간중간에 구분이 잘 되지 않는 행도 있더라구요.
보니까 문장 종결 역할을 하는 마침표(.)도 있지만 문장 중간에 나타나는 마침표때문인 것 같아요. (Fig. 1 이라던지 등)
가능다하면, 혹시 3번 방법도 예시를 알려주실 수 있으신가요??
No. | Subject | Author | Date |
---|---|---|---|
114 | Mytable yes만 출력 [4] | 도삼 | 2023.02.07 |
113 | Cluster analysis in Web-R [3] | 깨수깡 | 2023.02.07 |
112 | logistic regression 후에 ppt download 오류 [2] | ng2o321 | 2023.02.13 |
111 | mytable을 사용했는데 표가 console에서 보이지 않고 오류도 없는데, 뭐가 문제일까요? [3] | 난둥 | 2023.02.19 |
110 | Cluster analysis in Web-R [3] | 깨수깡 | 2023.02.20 |
109 | 결과표가 다운에러가 납니다. [2] | sophiachoi | 2023.02.21 |
108 | PSM 문의 | qubic | 2023.02.23 |
107 | PSM 결과표 문의입니다. | 오공이공 | 2023.03.02 |
106 | mixed effect model 지원 [3] | 야호 | 2023.03.03 |
105 | table 작성시 "non-numeric matrix extent" 오류 [1] | 남세이짱 | 2023.03.08 |
104 | 안녕하세요. [4] | 유령 | 2023.03.12 |
103 | logistic regression 결과 다운로드 오류 [2] | 남세이짱 | 2023.03.14 |
102 | 보고서 다운로드 에러가 납니다.. | 세렌 | 2023.03.16 |
101 | group-based trajectory modeling | swpapa | 2023.03.19 |
100 | PSM 매칭 버튼 보이지 않음. | swpapa | 2023.03.19 |
99 | 코딩값이 여러개인 변수에 대한 전체 p값을 알 수 있는 방법이 궁금합니다 | 쥬쥬즈주 | 2023.03.22 |
98 | 안녕하세요 교수님 에러 문의드립니다 [2] | 소소 | 2023.03.26 |
» | 연구동향분석 시 논문 데이터 정제 관련 [5] | vtlbtl | 2023.03.31 |
96 | 드디어 publish 되었네요. [2] | 정지윤 | 2023.04.04 |
95 | 안녕하세요. 분석 툴에 대해 문의드립니다. [1] | 스매직맨 | 2023.04.04 |
안녕하세요? 제가 잘 아는 분야가 아니라 저로서는 잘 모르겠습니다.