'클러스터링'에 해당되는 글 1건

  1. 2006/06/13 [검색] 문서 자동 분류 (2)
자동분류
분류 알고리즘에 의해 대상물들을 유사한 패턴을 갖는 것끼리 모아 집단화 하는 작업.
  컴퓨터의 처리능력도 좋아지고 처리해야할 문서도 너무 많아져 자동분류 등장
  목적 - 검색을 쉽게
       - 시소러스나 유사한 용어클래스 선택을 가능-> 검색성능을 향상
  자동분류의 구성요소 - 문서집합
                             - 문서의 자질 : 문서의 자질이 많으면 시간이 더 걸림
                                                  ->정보성이 낮은 단어는 과감히 배제해야.
   
분류기법에는- 중복을 허용하는 것  
                 - 불허하는 것(불허하는 쪽이 더 논리적이고 이해가 쉬워)


텍스트 범주화(외재적지도학습방법)
  : 배터적인 그룹 밑에 학습문헌을 통해 이미 있는 자료를 바탕으로 이용

클러스터링(내재적비지도학습방법)
  : 문헌간 유사도 행렬을 통해 대상물간의 유사도를 측정해서 나눈 분류

  클러스터링 과정
   문서집합과 클러스터의 자질들과 비교-> 유사도를 산출 ->클러스터배정
    다양한 유사성의 척도 사용 (유사도 척도는 한가지만 써야한다고)
       - 벡터공간상에서의 차이를 통해 대상간의 상이성을 측정하는 거리계수: 유클리드 거리계수
       - 비교 대상물이 표현하고 있는 속성간의 일치정도를 나타내는 것: 유사계수
          (자카드 계수, 다이스계수, 코사인계수, 내적계수, 피어슨상관계수 등)
       이런 유사도 척도에 따라 문서클러스터링이 달라짐으로 이 척도선택이 중요하지만
       절대적인 수치가 중요하다기보다는 그룹을 나누기때문에 상대적수치가 더욱 중요!!

   클러스터링 방법 -   계층적
                     -  비계층적계층적인 구조에는 통합대상인 클러스터 쌍의 가장 유사한 두 문서끼리 합치는 단일연결기법과
클러스터의 유사도가 낮은 문서를 비교하여 클러스터를 구성하여 밀접하게 연관된 클러스터를 얻는
완전연결방법과 단일연결과 완전연결의 중간쯤의 연결관게를 가지며 모든 구성원쌍의
유사도를 반영하는 것이 집단 평균방법이고,  클러스터센트로이드의 유클리드 거리를 최소하하고
전체오류제곱이 합의 증가가 최소화 되는 연결방법이 워드기법이라고 한다.
성능이 좋은 것은 집단평균과 워드기법이고, 단일연결은 나쁘다.

비계층적 방법에는 임의로 몇개 생성된 초기 센트로이드를 통해 유사도 측정을 하며.
초기 클러스터 선택에 따라 결과 달라질수 있다. 특히 싱글패스인경우는 한번의 배치밖에
없음으로 크러스터의 입력 순서가 매우 중요하다. 아무튼 간단하고 편하긴 하다.
K-means(연구실에서 몇번들어보았던 말이다 ㅋㅋ)는 재배치는 하나 갯수는 미리 정해야 한다.
이런것들은 대부분 덴드로 그램으로 표시되어 지며..
클러스터링의 경우 계층적인 것들이 비계층적인 것들보다 성능이 뛰어나지만
시간은 더 걸림으로 대규모 문서처리를  위해 비계층적을 이용하기도..
그리고 계층적 기법중 단일 연결기법은 대형클러스터를 생상함으로
문서클러스터링에 적합하지 않다.

문서범주화도 평가를 하는데 재현율과 정확률과 11포인트라는 것이 그것이다.
11포인트는 0%,10%....100%의 11개 지점에서 분류정확률을 나타낸것이며.
문서범주화는 아마존에서 하고 있는 collaborative filtering 과 같은 방법으로
특정 정보에 대한 선호를 학습하여 추천하고 소개할수 있도록 할수 있을것이며,
전자우편이나 디렉토리 서비스 등에 이용할 수 있다.

Posted by 사로잡히는여자
이전버튼 1 이전버튼

블로그 이미지
사로잡히는 여자가 좋아하는 인터넷, 정보, 검색, 미술, 여행, 생활 등의 이야기를 담는 곳
사로잡히는여자
Yesterday29
Today22
Total120,532