안녕하세요, 현재 연구용역과제로 연구동향분석을 하고 있는데요,
분석을 위해 논문 PDF 파일을 텍스트(TXT) 파일에 옮기니, 한 문장 단위로 잘 끊어지지가 않아서요
예를 들어,
철수는 밥을 먹습니다.
영희는 김치를 먹습니다
이렇게 나와야하는데,
철수는 밥을
먹습니다
영희는 김
치를 먹습니다
이렇게 끊어져서 '김치'같은 원래 하나인 단어마저 단어로 인식되지 않을 것 같은데
이런 상태로 분석을 진행해도 결과에 지장이 없을까요? (분석은 토픽모델링, 네트워크 분석 진행할 예정입니다)
아니면 R에서 문장을 연결해주는 그런 기능이 있을까요?
지금 하나하나 문장 이어붙이는 노가다 중인데 너무 번거로워서요..
Comment 5
-
cardiomoon
2023.03.31 13:05
-
맛있는호랑이
2023.03.31 15:03
안녕하세요. 제가 답변을 드릴 수 있을 것 같은데, 사실 텍스트파일이 어떻게 저장되어있느냐에 따라 다릅니다.
1. \n과 같은 개행문자가 있는 경우, stringr 패키지의 str_replace 함수 같은걸로 지워주는 작업을 해주면 됩니다.
2. 문장을 종결하는 어미에 dot(.), question mark(?), exclamation mark(!) 등, 문장 종결을 알리는 부호가 있는 경우, 이를 기준으로 해서 문장별로 리스트나 딕셔너리에 따로 담아 관리하면 조금 더 편합니다.
3. 그런데 위 문서와 같이 종결 부호가 없는 경우는 조금 복잡해지는데요, 많이 쓰이는 방법은 형태소 분석을 한 다음에, 종결을 알리는 어미가 왔을 때, 임의로 부호를 붙여준 다음, 문장별로 리스트나 딕셔너리에 따로 담는 방법입니다.
괜찮으시다면 가지고 계신 파일을 첨부해주시면, 제가 예시 코드를 만들어 드릴게요. :)
-
vtlbtl
2023.04.03 09:25
헛 친절하고 자세한 답변 감사드립니다. 파일은 txt 파일 말씀하시는거죠? 예시로 하나 첨부드리겠습니다.
-
맛있는호랑이
2023.04.03 21:47
제가 업무시간에는 봐드릴 수가 없어서 저녁에서야 봤네요. 아래 링크를 참고해보세요~
참고문헌 표시 1) 같은 것은 전처리를 하시리라 생각해서 일단 놔두었습니다.
https://colab.research.google.com/drive/1JC1qcDw2dNnaXGmr_HBrLYD-rtz0jj1y?usp=sharing -
vtlbtl
2023.04.07 11:08
답변 정말 감사드립니다.
일이 있어서 답이 늦었네요.
그런데 중간중간에 구분이 잘 되지 않는 행도 있더라구요.
보니까 문장 종결 역할을 하는 마침표(.)도 있지만 문장 중간에 나타나는 마침표때문인 것 같아요. (Fig. 1 이라던지 등)
가능다하면, 혹시 3번 방법도 예시를 알려주실 수 있으신가요??
안녕하세요? 제가 잘 아는 분야가 아니라 저로서는 잘 모르겠습니다.