728x90
반응형

인덱스란 무엇인가?

인덱스는 데이터베이스에서 검색 속도를 향상시키기 위해 사용되는 자료 구조입니다. 책의 찾아보기와 유사한 역할을 하며, 원하는 정보를 빠르게 찾을 수 있게 해줍니다.

예를 들어, 도서관에서 책을 찾는 상황을 생각해 봅시다. 인덱스가 없다면 모든 책장을 일일이 살펴봐야 하지만, 도서 분류 시스템(인덱스)이 있다면 원하는 책의 위치를 빠르게 찾을 수 있습니다.

 

인덱스의 작동 원리

인덱스는 주로 B-tree(Balanced Tree) 구조를 사용합니다. B-tree의 주요 특징은 다음과 같습니다:

a) 균형 트리: 모든 리프 노드가 같은 레벨에 있어 검색 성능이 일정합니다.

b) 탐색 트리: 항상 정렬된 상태를 유지하여 빠른 검색이 가능합니다.

c) 다중 데이터 저장: 하나의 노드에 여러 데이터를 저장할 수 있어 효율적입니다.

 

B-tree를 사용하면 데이터를 로그 시간 복잡도(O(log n))로 검색할 수 있어, 전체 데이터를 스캔하는 것보다 훨씬 빠릅니다.

 

인덱스의 종류

a) 클러스터드 인덱스 (Clustered Index)

  • 테이블의 물리적 데이터 순서를 결정합니다.
  • 테이블당 하나만 존재할 수 있습니다.
  • 주로 기본키(Primary Key)에 자동으로 생성됩니다.
  • 데이터 검색이 매우 빠르지만, 데이터 삽입/수정 시 비용이 높을 수 있습니다.

b) 논클러스터드 인덱스 (Non-clustered Index)

  • 별도의 인덱스 구조를 생성합니다.
  • 하나의 테이블에 여러 개 생성이 가능합니다.
  • 인덱스 구조에 실제 데이터의 위치 정보를 저장합니다.
  • 클러스터드 인덱스에 비해 검색은 조금 느리지만, 데이터 변경에 따른 부담이 적습니다.

인덱스 사용의 실제 예시

음식점 정보를 담은 테이블에서 '서울'에 있는 음식점을 찾는 상황을 가정해 봅시다.

  • 인덱스가 없을 때: 전체 데이터(예: 100만 개)를 순차적으로 스캔하며 '서울'인 주소를 찾습니다.
  • 성능: 매우 느림 (모든 데이터를 확인해야 함)
  • 주소에 인덱스가 있을 때:
    1. 인덱스 트리에서 '서울'을 빠르게 찾습니다.
    2. 해당 데이터의 실제 위치를 확인합니다.
    3. 필요한 데이터만 접근하여 결과를 반환합니다. 성능: 매우 빠름 (필요한 데이터에만 직접 접근)

실제 12만 개의 데이터에서 인덱스 사용 전후를 비교한 결과:

  • 인덱스 사용 전: 검색 시간 약 0.44초
  • 인덥스 사용 후: 검색 시간 약 0.02초 (약 20배 성능 향상)

효과적인 인덱스 사용시기

a) 적절한 컬럼 선택:

  • WHERE, JOIN, ORDER BY 절에 자주 사용되는 컬럼
  • 중복도가 낮은 컬럼 (예: 주민등록번호, 이메일 주소)
  • 범위 검색보다는 정확한 값 검색에 사용되는 컬럼

b) 복합 인덱스 고려:

  • 여러 컬럼을 함께 사용하는 쿼리가 자주 실행된다면 복합 인덱스를 고려하세요.
  • 컬럼 순서가 중요합니다. 가장 자주 사용되는 컬럼을 첫 번째로 지정하세요.

c) 인덱스 개수 제한:

  • 너무 많은 인덱스는 오히려 성능을 저하시킬 수 있습니다.
  • 데이터 변경 작업(INSERT, UPDATE, DELETE)시 모든 인덱스를 업데이트 필요. (쓰기가 많은 경우 비추천)

d) 주기적인 인덱스 관리:

  • 사용되지 않는 인덱스는 제거하세요.
  • 필요에 따라 인덱스를 재구성하여 최적의 상태를 유지하세요.

주의사항

  • 인덱스는 검색 성능을 향상시키지만, 데이터 변경 작업의 성능은 저하시킬 수 있습니다.
  • 작은 테이블에서는 인덱스의 효과가 미미할 수 있습니다. (대규모에서 추천)
  • 인덱스는 추가적인 저장 공간을 사용합니다.

출처 : https://www.youtube.com/watch?v=ywYdEls88Sw&list=PLgXGHBqgT2TvpJ_p9L_yZKPifgdBOzdVH&index=99

 

728x90
반응형

+ Recent posts