Data Discovery란 무엇인가?
데이터를 찾고 이해하는 프로세스인, Data Discovery에 대하여 2024-03-17

안녕하세요? 박민재입니다. 오늘은 Data Discovery에 대해서 알아 보도록 하겠습니다.

What is Data Discovery?

Data Discovery란 무엇 일까요? Data Discovery는 조직 내 데이터를 찾고 이해하는 프로세스를 의미 합니다. Data Engineer들은 요구사항을 수행하기 위해, 많은 Data Source에서 다양한 Data Table들을 제공하게 됩니다. 하지만, 시간이 오래 지나서 다양한 각 데이터의 히스토리 파악이 어렵게 된다면 데이터의 사용성 등에 대해 이슈가 생길 수 있습니다. 즉, 원하는 데이터 혹은 데이터의 의미를 찾아 내는 Data Discovery가 오래 걸리게 되는 문제가 발생 합니다. 그럼 업무 효율도가 확 줄어들게 되겠죠?

만약 Data Discovery의 과정이 원활 하지 않다면, 다음과 같은 문제가 발생 할 것 입니다.

  • 데이터의 의미데이터의 원천을 찾기 위한 커뮤니케이션 리소스 증가
  • 데이터 스키마 등의 변화가 발생 했을 시, 커뮤니케이션을 다시 수행 하여야 함
  • 데이터의 의미를 정확히 파악하지 못해, 불필요한 데이터를 분석하거나, 잘못된 데이터 기반 의사 결정이 발생 할 수 있음

원활한 Data Discovery를 보장하기 위해서는, 사용자 입장에서는 다음과 같은 정보들이 필요 하게 될 것 입니다.

  • Table + Column 정보
  • 데이터에 대한 설명
  • 테이블을 관리 하는 사람 혹은 팀의 정보
  • 테이블 사이의 관계

Data Discovery Platform

하지만, 이를 Wiki 만으로 관리하는 것은 어려움이 있습니다. 이를 중앙화하여 관리 해 줄 수 있는 플랫폼이 필요하게 되는데요, 우리는 이를 Data Discovery Platform이라고 합니다.

Data Discovery Platform은 분석 환경에 있는 모든 데이터를 편하고, 쉽게 검색하고, 빠르게 이해할 수 있도록 기능들을 제공하는 플랫폼입니다. Data TableMetadata의 관리 뿐만 아니라, Web UI 환경 제공, 데이터의 구조와 관계 검색 등을 제공합니다. 즉, Data Discovery Platform은 데이터 이용자에게 어떤 데이터가, 어디에, 어떻게 만들어 졌는지에 대한 정보를 사용자 친화적으로 제공 합니다.

Data Discovery Platform에 대해서 우리가 기대 하는 것은 다음과 같습니다.

  • 분석 환경 모든 테이블의 최신 명세를 중앙화하여 확인 (Metadata of Data Table)
  • 분석 환경 모든 테이블의 최신 통계와 샘플 데이터의 확인 (Data Profiling)
  • 분석 환경 모든 테이블의 여정을 확인 (Data Lineage)

Open Source

가장 유명한 Data Discovery Platform으로는 LinkedIn에서 만든 DataHub라는 친구가 있습니다. Kafka, REST API 등을 이용 하여 Metadata의 Update 내용들을 주기적으로 업데이트를 해줄 수 있는 기능이 존재하는데요, 다음 시간에는 DataHub의 핵심 기능들에 대해서 다뤄 보도록 하겠습니다.