- [ ] 데이터 원천의 본질적인 특징은 무엇인가?
- [ ] 애플리케이션인가?
- [ ] IoT 장치의 스웜인가?
- [ ] 원천 시스템에서 데이터는 어떻게 유지되는가?
- [ ] 데이터는 장기간 보존되는가?
- [ ] 일시적이고 빠르게 삭제되는가?
- [ ] 데이터는 어느 정도의 속도로 생성되는가?
- [ ] 초당 몇 개의 이벤트가 발생하는가?
- [ ] 시간당 몇 기가바이트인가?
- [ ] 데이터 엔지니어는 출력 데이터에서 어느 정도의 일관성을 기대할 수 있는가?
- [ ] 출력 데이터에 대해 데이터 품질 검사를 실행할 때, 예상치 못한 출력값이나 잘못된 데이터 포맷과 같은 데이터 불일치 사례는 얼마나 자주 발생하는가?
- [ ] 에러는 얼마나 자주 발생하는가?
- [ ] 데이터에 중복이 포함되지는 않는가?
- [ ] 일부 데이터값이 동시에 생성되는 다른 메시지보다 훨씬 늦게 도착할 수 있는가?
- [ ] 수집된 데이터의 스키마는 무엇인가?
- [ ] 데이터 엔지니어가 데이터를 완전히 파악하려면 여러 테이블 또는 여러 시스템에 걸쳐 조인을 수행해야 하는가?
- [ ] 스키마가 변경되면 어떻게 대처하고 다운스트림 이해관계자에게 전달할 수 있는가?
- [ ] 원천 시스템에서 데이터를 얼마나 자주 가져와야 하는가?
- [ ] stateful한 시스템의 경우, 데이터는 정기적으로 스냅샷으로 제공되는가?
- [ ] 아니면 변경 데이터 캡쳐(CDC)로부터의 갱신 이벤트로 제공되는가?
- [ ] 변경은 어떻게 수행되며, 원천 데이터베이스에서 이러한 변경을 어떻게 추적하는가?
- [ ] 다운스트림 사용을 위한 데이터를 전송하는 데이터 제공업체는 누구(무엇)인가?
- [ ] 데이터 원천에서의 데이터 조회가 성능에 영향을 미치는가?
- [ ] 원천 시스템에 업스트림 데이터 의존 관계가 잇는가?
- [ ] 이러한 업스트림 시스템의 특징은 무엇인가?
- [ ] 늦거나 누락된 데이터 확인용으로 데이터 품질 검사가 실시되고 있는가?