예를 들어, 최고의 인간 바둑 기사를 상대로 한 승리부터 최근에는 전례 없는 정확도로 날씨를 예보하는 것까지, AI의 발전은 계속해서 놀라움을 안겨주고 있습니다. 더욱 당혹스러운 결과는 놀라울 정도로 사실적인 이미지가 생성되어 진실과 거짓 사이의 혼란을 부추긴다는 것입니다. 하지만 이러한 이미지는 어떻게 자동으로 생성될까요?

이미지 생성 모델은 딥 러닝, 즉 수십억 개의 매개변수에 도달할 수 있는 매우 큰 신경망에 의존합니다. 신경망은 입력 데이터와 출력 예측을 연관시키는 함수로 볼 수 있습니다. 이 함수는 처음에는 무작위로 설정된 매개변수(숫자 값) 집합으로 구성되며, 네트워크는 학습을 통해 이를 수정하는 방법을 배웁니다.

규모를 말하자면, 사실적인 이미지를 생성할 수 있는 안정적 확산 모델은 80억 개의 매개변수로 구성되어 있으며, 이를 학습하는 데 60만 달러가 들었습니다.

이런 매개변수는 학습되어야 합니다. 이들의 학습을 설명하기 위해, 이미지에서 객체를 감지하는 더 간단한 사례를 살펴보겠습니다. 이미지는 네트워크에 입력으로 제시되고, 네트워크는 가능한 객체 레이블(자동차, 사람, 고양이 등)을 출력으로 예측해야 합니다.

학습은 이미지에 존재하는 객체를 가장 정확하게 예측할 수 있는 매개변수의 좋은 조합을 찾는 과정입니다. 학습의 질은 주로 레이블이 지정된 데이터의 양, 모델의 크기, 사용 가능한 컴퓨팅 성능에 따라 달라집니다.

이미지 생성의 경우, 어떤 면에서는 우리가 하려는 역방향 과정입니다. 즉, 장면을 설명하는 텍스트에서 모델의 출력은 이 설명에 해당하는 이미지를 생성할 것으로 예상되는데, 이는 레이블을 예측하는 것보다 훨씬 더 복잡합니다.

파괴하여 창조하다 684nt

우선, 텍스트는 잊고 이미지에만 집중해 보겠습니다. 이미지를 생성하는 것이 인간에게도 복잡한 과정이라면, 이미지를 파괴하는 것(그 반대의 문제)은 사소한 문제입니다. 구체적으로, 픽셀로 구성된 이미지에서 특정 픽셀의 색상을 무작위로 바꾸는 것은 간단한 변경 방법이 됩니다.

우리는 약간 변경된 이미지를 입력으로 신경망에 제시하고, 원래 이미지를 출력으로 예측하도록 요청할 수 있습니다. 그런 다음 모델을 훈련하여 이미지의 노이즈를 제거하는 방법을 학습시킬 수 있는데, 이는 이미지 생성을 향한 첫 번째 단계입니다. 따라서 노이즈가 심한 이미지에서 시작하여 모델 호출을 순차적으로 반복하면 호출할 때마다 노이즈가 점점 줄어드는 이미지를 얻게 되고, 결국 완전히 노이즈가 제거된 이미지를 얻게 됩니다.

이 과정을 과장하면, 우리는 완전히 노이즈(무작위 픽셀의 눈)로 구성된 이미지, 즉 아무것도 없는 이미지로 시작할 수 있으며, "노이즈 제거" 모델에 대한 호출을 반복하여 아래에 표시된 것과 같은 이미지를 얻을 수 있습니다.

이제 이미지를 생성할 수 있는 프로세스가 있지만, 무작위 노이즈에 따라 여러 번 반복한 후에는 출력 이미지가 무엇이든 생성될 수 있기 때문에 관심은 제한적입니다. 따라서 잡음 제거 과정을 안내하는 방법이 필요하며, 이 작업에는 텍스트가 사용됩니다.

소음에서 이미지로 6o555

잡음 제거 과정에는 이미지가 필요한데, 이 이미지는 인터넷에서 얻을 수 있으며, 이를 통해 훈련 데이터 세트를 구성할 수 있습니다. 노이즈 제거에 필요한 텍스트의 경우, 인터넷에서 찾은 이미지의 캡션을 그대로 사용했습니다. 이미지 잡음 제거를 학습하는 것과 함께 텍스트를 나타내는 네트워크가 연관됩니다. 따라서 모델이 이미지의 노이즈를 제거하는 방법을 학습할 때, 노이즈 제거와 관련된 단어가 무엇인지도 학습하게 됩니다. 훈련이 완료되면 설명적 텍스트와 전체 노이즈에서 모델을 얻고, 연속적인 반복을 통해 노이즈를 제거하여 텍스트 설명과 일치하는 이미지로 수렴합니다.

이 과정을 통해 구체적인 수동 라벨링이 필요 없게 되었습니다. 이는 웹에 이미 존재하는 캡션과 연관된 수백만 개의 이미지를 활용합니다. 마지막으로, 그림은 천 마디 말보다 가치가 있습니다. 예를 들어 위의 이미지는 안정적 확산 모델을 사용하여 "베이컨 정원에서 튀긴 계란 꽃"이라는 텍스트에서 생성되었습니다.

Christophe Rodrigues , 컴퓨터 과학 강사 겸 연구원, Pôle Léonard de Vinci

본 기사는 크리에이티브 커먼즈 라이선스에 따라 The Conversation 에서 재발행되었습니다. 원본 기사를 읽어보세요.

The Conversation

Generate

AI는 어떻게 이미지를 생성할까? 6jf18

파괴하여 창조하다 684nt

소음에서 이미지로 6o555

ArtMajeur에 오신 것을 환영합니다! 3263o