NYU의 새로운 AI 아키텍처로 고품질 이미지 생성이 더 빠르고 저렴해졌습니다

NYU의 새로운 AI 아키텍처로 고품질 이미지 생성이 더 빠르고 저렴해졌습니다

IT/기술 전문 정보

NYU의 새로운 AI 아키텍처로 고품질 이미지 생성이 더 빠르고 저렴해졌습니다

뉴욕 대학의 연구원들은 생성된 이미지의 의미론적 표현을 향상시키는 확산 모델을 위한 새로운 아키텍처를 개발했습니다. “RAE(Diffusion Transformer with Representation Autoencoders)”는 확산 모델 구축에 대해 허용되는 일부 표준에 도전합니다. NYU 연구원의 모델은 표준 확산 모델보다 더 효율적이고 정확하며 표현 학습에 대한 최신 연구를 활용하고 이전에는 너무 어렵거나 비용이 많이 들었던 새로운 애플리케이션을 위한 길을 열 수 있습니다. 이 획기적인 발전은 엔터프라이즈 애플리케이션을 위한

핵심 특징

고품질

검증된 정보만 제공

빠른 업데이트

실시간 최신 정보

상세 분석

전문가 수준 리뷰

상세 정보

핵심 내용

뉴욕 대학의 연구원들은 생성된 이미지의 의미론적 표현을 향상시키는 확산 모델을 위한 새로운 아키텍처를 개발했습니다. “RAE(Diffusion Transformer with Representation Autoencoders)”는 확산 모델 구축에 대해 허용되는 일부 표준에 도전합니다. NYU 연구원의 모델은 표준 확산 모델보다 더 효율적이고 정확하며 표현 학습에 대한 최신 연구를 활용하고 이전에는 너무 어렵거나 비용이 많이 들었던 새로운 애플리케이션을 위한 길을 열 수 있습니다. 이 획기적인 발전은 엔터프라이즈 애플리케이션을 위한 보다 안정적이고 강력한 기능을 제공할 수 있습니다. “이미지를 잘 편집하려면 모델이 그 안에 무엇이 있는지 실제로 이해해야 합니다”라고 논문 공동 저자인 Saining Xie는 VentureBeat에 말했습니다.

상세 분석

“RAE는 이해 부분을 생성 부분과 연결하는 데 도움이 됩니다.” 그는 또한 “검색을 위해 RAE 인코더 기능을 사용한 다음 검색 결과를 기반으로 새로운 이미지를 생성하는 RAG 기반 생성”과 “비디오 생성 및 동작 조건이 적용된 세계 모델”의 미래 애플리케이션을 지적했습니다. 생성 모델링의 상태 오늘날 대부분의 강력한 이미지 생성기 뒤에 있는 기술인 확산 모델, 이미지 압축 및 압축 해제를 학습하는 과정인 프레임 생성. VAE(변형 자동 인코더)는 소위 “잠재 공간”에서 이미지의 주요 특징을 간략하게 표현하는 방법을 학습합니다. 그런 다음 모델은 무작위 노이즈에서 이 프로세스를 역전시켜 새로운 이미지를 생성하도록 훈련됩니다. 이러한 모델의 확산 부분은 발전했지만 대부분에 사용된 자동 인코더는 최근 몇 년간 크게 변하지 않았습니다.

정리

NYU 연구진에 따르면 이 표준 자동 인코더(SD-VAE)는 낮은 수준의 특징과 로컬 모양을 캡처하는 데 적합하지만 “일반화 및 생성 성능에 중요한 전역 의미 구조”가 부족합니다. 동시에 이 분야에서는 DINO, MAE 및 CLIP과 같은 모델을 사용한 이미지 표현 학습에서 인상적인 발전을 보였습니다. 이러한 모델은 작업 전반에 걸쳐 일반화되고 시각적 이해를 위한 자연스러운 기반이 될 수 있는 의미론적으로 구조화된 시각적 특징을 학습합니다. 그러나 널리 알려진 믿음으로 인해 개발자는 이미지 생성에 이러한 아키텍처를 사용하지 못했습니다. 의미론에 초점을 맞춘 모델은 세분화된 픽셀 수준 기능을 캡처하지 않기 때문에 이미지 생성에 적합하지 않습니다.

자주 묻는 질문

Q. 어떤 정보를 제공하나요?

A. IT/기술 관련 최신 정보를 제공합니다.

Q. 신뢰할 수 있나요?

A. 검증된 출처만 선별합니다.

Q. 더 궁금한 점은?

A. 댓글로 문의하세요.

원문 출처

이 글은 원본 기사를 참고하여 작성되었습니다.

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다