IT/AI

데이터 버전 관리 툴 비교 (DVC, LakeFS, Git LFS, Pachyderm)

b__ono__ng 2024. 12. 19. 19:53

데이터 버전 관리에 사용되는 툴을 비교했다.

다만 직접 써본건 아니고, 잠깐의 서치로 찾은 정보라서 정확하지 않을 수도 있다.


1. DVC (Data Version Control), Recommend: 데이터의 메타데이터를 생성해서 Git 레포지토리로 버전 관리하는 툴

DVC
DVC Flow

장점

  • 사용하기 쉬움 (Git과 같은 형태)
  • 참고 자료 많음
  • 무료 서비스

단점

  • 대용량 데이터를 pull할 때 오래 걸림
  • 데이터 시각화 지원 X

2. Pachyderm: 데이터 버저닝에 특화된 툴

Pachyderm
Pachyderm Example

장점

  • 직관적인 데이터 버전 관리

단점

  • 유료 서비스
  • 참고 자료 적음
  • 담당 데이터 매니저 필요할 듯

3. LakeFS: DB 서버에서 데이터셋 관리하는 툴

LakeFS
LakeFS Server

장점

  • 무료 서비스
  • 참고 자료 많음

단점

  • 서버 형식으로, DB 서버 관리 필요
  • 담당 데이터 매니저 필요할 듯
  • 이미지 데이터셋은 적합 X?

4. Git LFS: Git이나 다른 원격 서버에 원본 데이터를 직접 commit하는 툴

Git LFS
Git LFS Flow

장점

  • Git에 원본 데이터를 직접 commit 가능

단점

  • 데이터 push/pull 속도 느릴 듯?

나는 이미지쪽 AI를 다루고 있고, DVC를 선택했다.