상단영역

본문영역

  • 기자명 박수빈 기자
  • 문화
  • 입력 2021.11.22 09:24

[기획업무 능력업] ‘Do it! 쉽게 배우는 R 텍스트 마이닝’, 실전 응용 가능 텍스트 마이닝 전반 다뤄

▲ 도서 'R텍스트마이닝'

[스타데일리뉴스=박수빈 기자] 정보화 시대에 데이터 분석이 가치는 점차 증가하고 있다. 기업의 업무에서 데이터를 분석하여 보고서를 작성하는 것이 점점 더 보편화가 되는 가운데 이러한 업무를 빠르고 효율적으로 처리할 수 있는 개념이 텍스트 마이닝이다.

텍스트 마이닝은 비정형 데이터를 분석하여 특정 콘텐츠의 사용자 반응을 알아내는 것을 의미하는데, 여기서 비정형 데이터는 댓글, 메시지, 위치 정보와 같이 일반적인 검색만으로는 알아내기 어려운 것을 말한다. 예를 들자면 봉준호 감독의 영화 ‘기생충’에 대해 네티즌들이 어떠한 의견을 냈는지를 알기 위해서는 댓글을 통한 분석이 필요하다. 이러한 것은 검색만으로 분석하기 어렵고 일일이 다 확인하기엔 시간이 많이 소요되기 때문에 그러한 수고를 덜어주는 것이 텍스트 마이닝의 기능인 것이다.

하지만 이러한 개념을 안다고 해도 실전에서 사용하지 못한다면 아무 의미가 없을 것이다. 이번에 발간된 ‘Do it! 쉽게 배우는 R 텍스트 마이닝’은 텍스트 마이닝 기능을 이용할 수 있는 ‘R’이라는 프로그램을 통해 실전에 응용할 수 있는 기법을 일목요연하게 기술했다.

총 7개의 장으로 구성된 'R텍스트마이닝'은 단어 빈도분석부터 시작해 형태소 분석기를 이용한 단어빈도분석과 개념이 확장된 비교분석까지 내용을 담았다. 또 텍스트 작성의 주체가 되는 대상의 감정분석을 통해 어떤 마음으로 글을 작성했는지까지 생각해 볼 수 있는 방법과 어떠한 맥락에서 이를 해석해야 하는지에 대한 전반적인 사항까지 두루 구성했다. 실제적으로 실무에 적용이 가능한 '토픽모델링'과 사례를 바탕으로 따라 할 수 있는 텍스트마이닝까지 쉬지 않고 이어진다. 

책은 "텍스트 마이닝을 진짜 내가 할 수 있을까?"라고 의구심을 품는 초보 독자를 타깃으로 제작되어 더욱 유용하다. 저자는 R에 입문한 사람이라면 누구나 따라 할 수 있는 구성으로 ‘완벽한 텍스트 마이닝 실습 매뉴얼’을 구성해 선보인다. 텍스트 마이닝 실전 연습을 충분히 할 수 있도록 현재 우리 사회에서 이슈가 되고 있는 4가지 주제를 중심으로 데이터를 엄선하여 텍스트 마이닝 실습을 진행한다. ‘대통령 연설문’, ‘영화 '기생충' 오스카상 수상 댓글’, ‘타다 금지법 댓글’, ‘내년 대선 후보 댓글’의 4가지 실제 사례를 분석하며 개념을 이해하는 과정으로 구성해서 처음에는 복잡해 보이는 개념도 실습을 진행하다 보면 내용을 쉽게 습득할 수 있다.

데이터 분석이 이제는 개발자, 마케터, 프로젝트 관리자들에게는 기본 소양이 된 만큼 현장에서 응용하기 적합한 도서인 것이다. 저자는 “이 책을 집필할 때 실무에서 바로 사용해도 될 정도의 텍스트 분석 과정과 시각화 과정을 포함하기 위해 노력했다”고 강조했다. 책을 출간한 이지스퍼블리싱은 “R 텍스트 마이닝 특별과정을 담은 것과 같은 책이므로 책을 잘 습득하면 데이터분석가로서 한 단계 성장하게 될 것으로 기대된다”고 밝혔다.

모바일에서 기사보기