카테고리 없음

자바로 형태소 분석이 가능할까?

Jr.Kelly 2017. 1. 21. 21:56
파이썬으로는 다량의 기사를 처리하는데 어려움과 속도의 문제로

자바로 텍스트 마이닝을 하는 방법을 찾아 보려고 한다.

자바는 한달전까지하고 놓았는데...파이썬은 취미로, 자바를 더 캐야겠다 다시!



무튼 생략하고 - 


본론은 

 

단계1. 자바로 기사 추출 -> DB 접근/저장 -> 기사의 형태소 분석이 가능한지 ?


<배경지식>


1. 우리의 상황: 기사로 주제를 분류할 줄 알아야한다. 이게 '텍스트 마이닝' 기술에 해당되는 지?


텍스트마이닝은 한마디로, 비정형 텍스트 데이터에서 가치와 의미가 있는 정보를 찾아내는(Mining)기술이라고 할 수 있다. 사용자는 텍스트마이닝 기술을 통해 방대한 정보 뭉치에서 의미 있는 정보를 추출해 내고, 다른 정보와의 연계성을 파악하며, 텍스트가 가진 카테고리를 찾아내는 등, 단순한 정보 검색 그 이상의 결과를 얻어낼 수 있다. 컴퓨터가 인간이 사용하는 언어로 기술된 정보를 깊이 분석하고 그 안에 숨겨진 정보를 발굴해 내기 위해서는 대용량 언어자원과 복잡한 통계적, 규칙적 알고리즘이 적용되어야만 한다.



2. 텍스트 마이닝은 데이터 마이닝인가?


텍스트마이닝은 데이터마이닝(Data Mining)과는 다른 분야이다. 데이터마이닝은 구조화되고 사실적인 방대한 데이터베이스에서 관심 있는 패턴을 찾아내는 기술 분야라고 본다면, 텍스트마이닝은 구조화되지 않고 자연어로 이루어진 텍스트에서 의미를 찾아내는 기술 분야이다. 데이터마이닝의 전형적인 사례는 “특정 물건을 선반의 어느 위치에 진열할 때 가장 많이 팔리는가” 등의 소비자 패턴조사 등에서 흔히 볼 수 있다. 데이터 분석가들은 수 많은 카드 사용자들의 기록을 가지고 사용자들의 일반적인 카드 사용패턴을 찾아 내기도 한다.