기본미션: k-평균 알고리즘 작동 방식 설명


1. 무작위로 k개의 클러스터 중심을 정한다.
2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정합니다.
3. 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경합니다.
4. 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복합니다.

장점: 구현하기가 간단하다, 사전에 학습된 레이블이 필요하지 않다, 새로운 데이터의 군집을 찾을 때 계산량이 적다.

단점: 초기에 군집 수를 설정하기 때문에 k의 값에 따라 정확도가 달라진다, 학습 후 초기 학습한 군집 수를 변경이 불가능하기 때문에 데이터 증가에 따라 새로운 클러스터를 형성하는 것은 불가능하다

추가미션 ch.06 확인 문제 풀고, 풀이 과정 정리 하기


1.특성이 20개인 대량의 데이터섹이 있습니다. 이 데이터셋에서 찾을 수 있는 주성분 개수는 몇개일까요?

답: 2번 → 특성의 개수만큼 주성분의 개수를 찾을 수 있기 때문이다.

2.샘플개수가 1000개이고 특성 개수는 100개인 데이터셋이 있습니다. 즉 이 데이터셋의 크기는 (1000, 100)입니다 이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분을 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요?

답: 1번 → 주성분을 찾아 변환하면, 샘플의 개수는 변함이 없고, 특성의 개수만 축소되는 것이기 때문이다.

3.2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째인가요?

답: 1번 → 주성분 분석은 차원 축소 알고리즘의 하나로 데이터에서 가장 분산이 큰 방향을 찾기 때문이다.

복사했습니다!