IT/AI
데이터 버전 관리 툴 비교 (DVC, LakeFS, Git LFS, Pachyderm)
b__ono__ng
2024. 12. 19. 19:53
데이터 버전 관리에 사용되는 툴을 비교했다.
다만 직접 써본건 아니고, 잠깐의 서치로 찾은 정보라서 정확하지 않을 수도 있다.
1. DVC (Data Version Control), Recommend: 데이터의 메타데이터를 생성해서 Git 레포지토리로 버전 관리하는 툴
장점
- 사용하기 쉬움 (Git과 같은 형태)
- 참고 자료 많음
- 무료 서비스
단점
- 대용량 데이터를 pull할 때 오래 걸림
- 데이터 시각화 지원 X
2. Pachyderm: 데이터 버저닝에 특화된 툴
장점
- 직관적인 데이터 버전 관리
단점
- 유료 서비스
- 참고 자료 적음
- 담당 데이터 매니저 필요할 듯
3. LakeFS: DB 서버에서 데이터셋 관리하는 툴
장점
- 무료 서비스
- 참고 자료 많음
단점
- 서버 형식으로, DB 서버 관리 필요
- 담당 데이터 매니저 필요할 듯
- 이미지 데이터셋은 적합 X?
4. Git LFS: Git이나 다른 원격 서버에 원본 데이터를 직접 commit하는 툴
장점
- Git에 원본 데이터를 직접 commit 가능
단점
- 데이터 push/pull 속도 느릴 듯?
나는 이미지쪽 AI를 다루고 있고, DVC를 선택했다.