흐림을 줄이는 방법들을 하나씩 적용하고 각각의 과정과 효과를 비교 (대조 실험)
앞 페이지들의 결과는 형태는 보이지만 번져 보였어요. 원인은 해상도가 아니라 대부분 데이터·학습량·VAE에 있습니다. 여기서는 흐림을 줄이는 4가지 방법을 하나씩 적용해 보고, 각 방법의 작업 과정과 효과를 직접 비교합니다.
과정: COCO 박스를 다시 자르되 ⓐ 배경 여백을 없애 객체만 꽉 차게, ⓑ 원본에서 충분히 큰 객체만 골라 흐린 확대본을 배제, ⓒ 클래스 수를 맞춰 특정 클래스 쏠림을 줄였어요. 결과 데이터는 더 적지만(약 7,200장) 훨씬 깨끗합니다.
여백 0.15 → 0.0배경 잡음 제거, 객체만최소 40 → 72px흐린 작은 크롭 배제클래스당 ≤1000장많은 차(2304)·적은 곰(184) 균형
과정: 같은 모델·데이터로 학습 에폭을 400 → 800으로 늘렸어요. 손실(loss)이 아직 내려가던 중이었기 때문에, 더 학습하면 노이즈 예측이 정밀해져 디테일이 또렷해집니다. 추가 비용은 시간뿐(공짜에 가까운 개선).
과정: 학습은 그대로 두고 생성할 때만 guidance scale을 3 → 6으로
올렸어요. "조건 있음"과 "조건 없음" 예측의 차이를 더 과장해, 클래스 특징을 더 강하게
드러냅니다. 학습 비용 0 — 손잡이만 돌리면 됩니다(너무 키우면 부자연스러워짐).
과정: 학습 이미지를 128×128로 키우고, 128px 디테일을 가진 큰 객체만(원본에서 충분히 큰 것) 골라 다시 학습했어요. 그 결과 버스·얼룩말·기린처럼 큰 물체는 64px보다 확실히 또렷해졌습니다. 다만 비용이 4~5배이고, 작은 객체가 많은 데이터에선 이득이 작아요.
과정: 잠재공간 생성(③페이지)이 가장 흐렸던 건 작은 VAE의 복원이 흐려서였어요. 그래서 ⓐ 압축을 덜 하고(8×8→16×16), ⓑ perceptual 손실(VGG 특징 차이)을 추가해 복원을 선명하게 만든 VAE를 새로 학습했습니다. 잠재 디퓨전은 이 VAE의 선명도까지 좋아집니다.
48배(f8) → 12배(f4)덜 압축 = 더 선명8×8×4 → 16×16×44배 더 큰 잠재L1 → L1+perceptualVGG 특징으로 '눈에 보이는' 선명도
아래는 같은 클래스를 기준(base)부터 각 방법, 그리고 전부 합친(ALL) 모델까지 나란히 생성한 결과예요. 왼쪽에서 오른쪽으로 갈수록 또렷해지는 흐름을 볼 수 있습니다.
네 가지가 각자 조금씩 기여했고, 합치면(ALL) 가장 또렷합니다.
핵심 교훈: 화질은 픽셀 수만의 문제가 아니라 "무엇을(데이터)·얼마나(학습)·어떻게 (VAE·CFG·해상도) 보여주고 만드느냐"의 합이라는 것 — 그래서 한 가지만 키우기보다 균형 있게 함께 올릴 때 가장 좋아집니다.
대조 실험 · 한 번에 하나씩 · 모든 숫자/그림은 실제 실행 결과