- [ ] 데이터를 실시간으로 수집하면 다운스트림 스토리지 시스템이 데이터 흐름 속도를 처리할 수 있는가?
- [ ] 밀리초 단위의 실시간 데이터 수집이 필요할까?
- [ ] 매분마다 데이터를 축적하고 수집하는 마이크로 배치 접근 방식이 효과가 있을까?
- [ ] 스트리밍 수집의 사용 사례로는 무엇이 있을까?
- [ ] 스트리밍을 구현하면 구체적으로 어떤 이점을 얻을 수 있을까?
- [ ] 데이터를 실시간으로 가져올 수 있다면, 배치 방식에 비해 개선될 수 있는 데이터에 대해 어떤 조치를 취할 수 있을까?
- [ ] 스트리밍 우선 접근 방식은 단순 배치 방식보다 시간, 비용, 유지 보수, 다운타임 및 기회비용 측면에서 더 많은 비용을 소비할까?
- [ ] 인프라에 장애가 발생했을 때 스트리밍 파이프라인과 시스템이 안정적이고 다중화되어 있는가?
- [ ] 사용 사례에 가장 적합한 도구는 무엇인가?
- [ ] 카프카, 플링크, 스파크, 펄사 등의 인스턴스를 구축?
- [ ] 누가 관리의 역할을 맡고 비용과 트레이드 오프는 무엇일까?
- [ ] 관리형 서비스(아마존 키네시스 등) 사용?
- [ ] ML 모델을 배포했을 때 온라인 예측 및 지속적인 훈련으로 얻을 수 있는 이점은 무엇일까?
- [ ] 실제 운영 인스턴스에서 데이터를 가져오는가?
- [ ] 그렇다면 이 원천 시스템에 대한 수집 프로세스의 영향도는 얼마나 될까?