Blog, Tech

[Data Engineering] 데이터 효율의 핵심: 증분 적재(Incremental Load) 5가지 패턴 분석

2025년 12월
By 이 태민

[Data Engineering] 데이터 효율의 핵심: 증분 적재(Incremental Load) 5가지 패턴 분석

증분 적재의 필요성
데이터 파이프라인의 규모가 테라바이트(TB) 급으로 성장하면 전체 복사 방식은 소스 데이터베이스에 과도한 부하를 주고 네트워킹 비용을 급증시킵니다. 증분 적재는 데이터의 변경분(Delta)만을 처리함으로써 리소스 사용을 최적화하고 처리 속도를 획기적으로 개선합니다.

증분 적재의 5가지 핵심 패턴

1. 워터마크(Watermark)

워터마크는 소스 테이블 내에서 데이터의 삽입 또는 수정 시간을 나타내는 컬럼(예: updated_at, created_at)을 기준으로 삼는 방식입니다. 타겟 테이블에 저장된 가장 최근의 타임스탬프 값을 확인하고, 그 이후의 데이터를 추출합니다

특징: 구현이 간단하며 대부분의 RDBMS 환경에서 범용적으로 사용됩니다.
코드 예시 (SQL)

				
					-- 배치 실행 시 변수(:last_load_time)를 활용한 조건 절
SELECT * FROM source_table 
WHERE updated_at > :last_load_time;

2. CDC (Change Data Capture)

CDC는 데이터베이스의 트랜잭션 로그(Binary Log, WAL 등)를 직접 읽어 데이터의 변경 이벤트를 실시간으로 캡처하는 기술입니다. 애플리케이션 레벨의 쿼리 없이도 INSERT, UPDATE, DELETE를 모두 추적할 수 있습니다.

특징: 소스 DB에 부하를 주지 않으며, ‘삭제(Delete)’ 된 데이터까지 완벽하게 감지할 수 있습니다.
대표 도구: Debezium, AWS DMS, Flink CDC 등.

3. 업서트 (Upsert / Merge)

새로운 데이터는 삽입하고, 이미 존재하는 데이터는 최신 값으로 업데이트하는 방식입니다. 주로 분산 스토리지나 데이터 웨어하우스(DW)에 데이터를 적재할 때 중복을 방지하기 위해 사용됩니다.

특징: 고유 식별자(Primary Key)를 기준으로 데이터의 최신 상태를 유지합니다.
코드 예시 (PySpark/Delta Lake):

				
					from delta.tables import *

# Delta Lake의 Merge 기능을 활용한 Upsert
target_table = DeltaTable.forPath(spark, "/data/target_table")
incremental_df = spark.read.parquet("/data/incremental_source")

target_table.alias("target").merge(
    incremental_df.alias("updates"),
    "target.id = updates.id"
).whenMatchedUpdateAll().whenNotMatchedInsertAll().execute()