refactor: cleanup ddim

2 years ago · 6307a0daf5
parent 89908603cf
commit 6307a0daf5
13 changed files with 180 additions and 212 deletions
--- a/README.md
+++ b/README.md
@ -189,6 +189,8 @@ docker run -it --gpus all -v $HOME/.cache/huggingface:/root/.cache/huggingface -
     - https://github.com/bloc97/CrossAttentionControl/blob/main/CrossAttention_Release_NoImages.ipynb
   - guided generation 
     - https://colab.research.google.com/drive/1dlgggNa5Mz8sEAGU0wFCHhGLFooW_pf1#scrollTo=UDeXQKbPTdZI
+     - https://colab.research.google.com/github/aicrumb/doohickey/blob/main/Doohickey_Diffusion.ipynb#scrollTo=PytCwKXCmPid
+     - https://github.com/mlfoundations/open_clip
   - ✅ tiling
   - output show-work videos
   - image variations https://github.com/lstein/stable-diffusion/blob/main/VARIATIONS.md
--- a/imaginairy/api.py
+++ b/imaginairy/api.py
@ -239,7 +239,7 @@ def imagine(
                    )
                else:

-                    samples, _ = sampler.sample(
+                    samples = sampler.sample(
                        num_steps=prompt.steps,
                        conditioning=c,
                        batch_size=1,
--- a/imaginairy/enhancers/upscale_realesrgan.py
+++ b/imaginairy/enhancers/upscale_realesrgan.py
@ -22,6 +22,7 @@ def realesrgan_upsampler():
        device = "cuda"
    else:
        device = "cpu"
+    device = get_device()

    upsampler.device = torch.device(device)
    upsampler.model.to(device)
--- a/imaginairy/modules/diffusion/util.py
+++ b/imaginairy/modules/diffusion/util.py
@ -302,8 +302,8 @@ class HybridConditioner(nn.Module):


 def noise_like(shape, device, repeat=False):
-    repeat_noise = lambda: torch.randn((1, *shape[1:]), device=device).repeat(
-        shape[0], *((1,) * (len(shape) - 1))
-    )
-    noise = lambda: torch.randn(shape, device=device)
-    return repeat_noise() if repeat else noise()
+    if repeat:
+        return torch.randn((1, *shape[1:]), device=device).repeat(
+            shape[0], *((1,) * (len(shape) - 1))
+        )
+    return torch.randn(shape, device=device)
--- a/imaginairy/samplers/base.py
+++ b/imaginairy/samplers/base.py
@ -1,9 +1,6 @@
 import torch
 from torch import nn

-from imaginairy.samplers.ddim import DDIMSampler
-from imaginairy.samplers.kdiff import KDiffusionSampler
-from imaginairy.samplers.plms import PLMSSampler
 from imaginairy.utils import get_device

 SAMPLER_TYPE_OPTIONS = [
@ -28,6 +25,10 @@ _k_sampler_type_lookup = {


 def get_sampler(sampler_type, model):
+    from imaginairy.samplers.ddim import DDIMSampler
+    from imaginairy.samplers.kdiff import KDiffusionSampler
+    from imaginairy.samplers.plms import PLMSSampler
+
    sampler_type = sampler_type.lower()
    if sampler_type == "plms":
        return PLMSSampler(model)
@ -39,6 +40,12 @@ def get_sampler(sampler_type, model):


 class CFGDenoiser(nn.Module):
+    """
+    Conditional forward guidance wrapper
+
+
+    """
+
    def __init__(self, model):
        super().__init__()
        self.inner_model = model
@ -64,7 +71,7 @@ class DiffusionSampler:
        self.sampler_func = sampler_func
        self.device = device

-    def sample(
+    def zzsample(
        self,
        num_steps,
        text_conditioning,
--- a/imaginairy/samplers/ddim.py
+++ b/imaginairy/samplers/ddim.py
@ -24,74 +24,87 @@ class DDIMSampler:
    https://arxiv.org/abs/2010.02502
    """

-    def __init__(self, model, schedule="linear", **kwargs):
-        super().__init__()
+    def __init__(self, model):
        self.model = model
-        self.ddpm_num_timesteps = model.num_timesteps
-        self.schedule = schedule
-        self.device_available = get_device()
-
-    def register_buffer(self, name, attr):
-        if type(attr) == torch.Tensor:
-            if attr.device != torch.device(self.device_available):
-                attr = attr.to(torch.float32).to(torch.device(self.device_available))
-        setattr(self, name, attr)

    def make_schedule(self, ddim_num_steps, ddim_discretize="uniform", ddim_eta=0.0):
-        self.ddim_timesteps = make_ddim_timesteps(
+        buffers = self._make_schedule(
+            model_num_timesteps=self.model.num_timesteps,
+            model_alphas_cumprod=self.model.alphas_cumprod,
+            model_betas=self.model.betas,
+            model_alphas_cumprod_prev=self.model.alphas_cumprod_prev,
+            ddim_num_steps=ddim_num_steps,
+            ddim_discretize=ddim_discretize,
+            ddim_eta=ddim_eta,
+            device=self.model.device,
+        )
+        for k, v in buffers.items():
+            setattr(self, k, v)
+
+    @staticmethod
+    def _make_schedule(
+        model_num_timesteps,
+        model_alphas_cumprod,
+        model_betas,
+        model_alphas_cumprod_prev,
+        ddim_num_steps,
+        ddim_discretize="uniform",
+        ddim_eta=0.0,
+        device=get_device(),
+    ):
+        ddim_timesteps = make_ddim_timesteps(
            ddim_discr_method=ddim_discretize,
            num_ddim_timesteps=ddim_num_steps,
-            num_ddpm_timesteps=self.ddpm_num_timesteps,
-        )
-        alphas_cumprod = self.model.alphas_cumprod
-        assert (
-            alphas_cumprod.shape[0] == self.ddpm_num_timesteps
-        ), "alphas have to be defined for each timestep"
-        to_torch = lambda x: x.clone().detach().to(torch.float32).to(self.model.device)
-
-        self.register_buffer("betas", to_torch(self.model.betas))
-        self.register_buffer("alphas_cumprod", to_torch(alphas_cumprod))
-        self.register_buffer(
-            "alphas_cumprod_prev", to_torch(self.model.alphas_cumprod_prev)
+            num_ddpm_timesteps=model_num_timesteps,
        )
+        alphas_cumprod = model_alphas_cumprod
+        if not alphas_cumprod.shape[0] == model_num_timesteps:
+            raise ValueError("alphas have to be defined for each timestep")

-        # calculations for diffusion q(x_t | x_{t-1}) and others
-        self.register_buffer(
-            "sqrt_alphas_cumprod", to_torch(np.sqrt(alphas_cumprod.cpu()))
-        )
-        self.register_buffer(
-            "sqrt_one_minus_alphas_cumprod",
-            to_torch(np.sqrt(1.0 - alphas_cumprod.cpu())),
-        )
-        self.register_buffer(
-            "log_one_minus_alphas_cumprod", to_torch(np.log(1.0 - alphas_cumprod.cpu()))
-        )
-        self.register_buffer(
-            "sqrt_recip_alphas_cumprod", to_torch(np.sqrt(1.0 / alphas_cumprod.cpu()))
-        )
-        self.register_buffer(
-            "sqrt_recipm1_alphas_cumprod",
-            to_torch(np.sqrt(1.0 / alphas_cumprod.cpu() - 1)),
-        )
+        def to_torch(x):
+            return x.clone().detach().to(torch.float32).to(device)

        # ddim sampling parameters
        ddim_sigmas, ddim_alphas, ddim_alphas_prev = make_ddim_sampling_parameters(
            alphacums=alphas_cumprod.cpu(),
-            ddim_timesteps=self.ddim_timesteps,
+            ddim_timesteps=ddim_timesteps,
            eta=ddim_eta,
        )
-        self.register_buffer("ddim_sigmas", ddim_sigmas)
-        self.register_buffer("ddim_alphas", ddim_alphas)
-        self.register_buffer("ddim_alphas_prev", ddim_alphas_prev)
-        self.register_buffer("ddim_sqrt_one_minus_alphas", np.sqrt(1.0 - ddim_alphas))
+
+        buffers = {
+            "ddim_timesteps": ddim_timesteps,
+            "betas": to_torch(model_betas),
+            "alphas_cumprod": to_torch(alphas_cumprod),
+            "alphas_cumprod_prev": to_torch(model_alphas_cumprod_prev),
+            # calculations for diffusion q(x_t | x_{t-1}) and others
+            "sqrt_alphas_cumprod": to_torch(np.sqrt(alphas_cumprod.cpu())),
+            "sqrt_one_minus_alphas_cumprod": to_torch(
+                np.sqrt(1.0 - alphas_cumprod.cpu())
+            ),
+            "log_one_minus_alphas_cumprod": to_torch(
+                np.log(1.0 - alphas_cumprod.cpu())
+            ),
+            "sqrt_recip_alphas_cumprod": to_torch(np.sqrt(1.0 / alphas_cumprod.cpu())),
+            "sqrt_recipm1_alphas_cumprod": to_torch(
+                np.sqrt(1.0 / alphas_cumprod.cpu() - 1)
+            ),
+            "ddim_sigmas": ddim_sigmas.to(torch.float32).to(device),
+            "ddim_alphas": ddim_alphas.to(torch.float32).to(device),
+            "ddim_alphas_prev": ddim_alphas_prev,
+            "ddim_sqrt_one_minus_alphas": np.sqrt(1.0 - ddim_alphas)
+            .to(torch.float32)
+            .to(device),
+        }
+
        sigmas_for_original_sampling_steps = ddim_eta * torch.sqrt(
-            (1 - self.alphas_cumprod_prev)
-            / (1 - self.alphas_cumprod)
-            * (1 - self.alphas_cumprod / self.alphas_cumprod_prev)
-        )
-        self.register_buffer(
-            "ddim_sigmas_for_original_num_steps", sigmas_for_original_sampling_steps
+            (1 - buffers["alphas_cumprod_prev"])
+            / (1 - buffers["alphas_cumprod"])
+            * (1 - buffers["alphas_cumprod"] / buffers["alphas_cumprod_prev"])
        )
+        buffers[
+            "ddim_sigmas_for_original_num_steps"
+        ] = sigmas_for_original_sampling_steps
+        return buffers

    @torch.no_grad()
    def sample(
@ -99,7 +112,7 @@ class DDIMSampler:
        num_steps,
        batch_size,
        shape,
-        conditioning=None,
+        conditioning,
        callback=None,
        normals_sequence=None,
        img_callback=None,
@ -112,50 +125,42 @@ class DDIMSampler:
        score_corrector=None,
        corrector_kwargs=None,
        x_T=None,
-        log_every_t=100,
        unconditional_guidance_scale=1.0,
        unconditional_conditioning=None,
        # this has to come in the same format as the conditioning, # e.g. as encoded tokens, ...
        **kwargs,
    ):
-        if conditioning is not None:
-            if isinstance(conditioning, dict):
-                cbs = conditioning[list(conditioning.keys())[0]].shape[0]
-                if cbs != batch_size:
-                    logger.warning(
-                        f"Warning: Got {cbs} conditionings but batch-size is {batch_size}"
-                    )
-            else:
-                if conditioning.shape[0] != batch_size:
-                    logger.warning(
-                        f"Warning: Got {conditioning.shape[0]} conditionings but batch-size is {batch_size}"
-                    )
+        if isinstance(conditioning, dict):
+            cbs = conditioning[list(conditioning.keys())[0]].shape[0]
+            if cbs != batch_size:
+                logger.warning(
+                    f"Warning: Got {cbs} conditionings but batch-size is {batch_size}"
+                )
+        else:
+            if conditioning.shape[0] != batch_size:
+                logger.warning(
+                    f"Warning: Got {conditioning.shape[0]} conditionings but batch-size is {batch_size}"
+                )

        self.make_schedule(ddim_num_steps=num_steps, ddim_eta=eta)
-        # sampling
-        C, H, W = shape
-        size = (batch_size, C, H, W)
-        logger.debug(f"Data shape for DDIM sampling is {size}, eta {eta}")

-        samples, intermediates = self.ddim_sampling(
+        samples = self.ddim_sampling(
            conditioning,
-            size,
+            shape=(batch_size, *shape),
            callback=callback,
            img_callback=img_callback,
            quantize_denoised=quantize_x0,
            mask=mask,
            x0=x0,
-            ddim_use_original_steps=False,
            noise_dropout=noise_dropout,
            temperature=temperature,
            score_corrector=score_corrector,
            corrector_kwargs=corrector_kwargs,
            x_T=x_T,
-            log_every_t=log_every_t,
            unconditional_guidance_scale=unconditional_guidance_scale,
            unconditional_conditioning=unconditional_conditioning,
        )
-        return samples, intermediates
+        return samples

    @torch.no_grad()
    def ddim_sampling(
@ -163,14 +168,12 @@ class DDIMSampler:
        cond,
        shape,
        x_T=None,
-        ddim_use_original_steps=False,
        callback=None,
        timesteps=None,
        quantize_denoised=False,
        mask=None,
        x0=None,
        img_callback=None,
-        log_every_t=100,
        temperature=1.0,
        noise_dropout=0.0,
        score_corrector=None,
@ -188,12 +191,8 @@ class DDIMSampler:
        log_latent(img, "initial noise")

        if timesteps is None:
-            timesteps = (
-                self.ddpm_num_timesteps
-                if ddim_use_original_steps
-                else self.ddim_timesteps
-            )
-        elif timesteps is not None and not ddim_use_original_steps:
+            timesteps = self.ddim_timesteps
+        else:
            subset_end = (
                int(
                    min(timesteps / self.ddim_timesteps.shape[0], 1)
@ -203,13 +202,8 @@ class DDIMSampler:
            )
            timesteps = self.ddim_timesteps[:subset_end]

-        intermediates = {"x_inter": [img], "pred_x0": [img]}
-        time_range = (
-            reversed(range(0, timesteps))
-            if ddim_use_original_steps
-            else np.flip(timesteps)
-        )
-        total_steps = timesteps if ddim_use_original_steps else timesteps.shape[0]
+        time_range = np.flip(timesteps)
+        total_steps = timesteps.shape[0]
        logger.info(f"Running DDIM Sampling with {total_steps} timesteps")

        iterator = tqdm(time_range, desc="DDIM Sampler", total=total_steps)
@ -230,7 +224,6 @@ class DDIMSampler:
                cond,
                ts,
                index=index,
-                use_original_steps=ddim_use_original_steps,
                quantize_denoised=quantize_denoised,
                temperature=temperature,
                noise_dropout=noise_dropout,
@ -243,13 +236,8 @@ class DDIMSampler:
            log_latent(img, "img")
            log_latent(pred_x0, "pred_x0")

-            if index % log_every_t == 0 or index == total_steps - 1:
-                intermediates["x_inter"].append(img)
-                intermediates["pred_x0"].append(pred_x0)
-
-        return img, intermediates
+        return img

-    # @torch.no_grad()
    def p_sample_ddim(
        self,
        x,
@ -257,7 +245,6 @@ class DDIMSampler:
        t,
        index,
        repeat_noise=False,
-        use_original_steps=False,
        quantize_denoised=False,
        temperature=1.0,
        noise_dropout=0.0,
@ -265,70 +252,69 @@ class DDIMSampler:
        unconditional_conditioning=None,
        loss_function=None,
    ):
-        b, *_, device = *x.shape, x.device
-
-        if unconditional_conditioning is None or unconditional_guidance_scale == 1.0:
-            with torch.no_grad():
-                noise_pred = self.model.apply_model(x, t, c)
-        else:
-            x_in = torch.cat([x] * 2)
-            t_in = torch.cat([t] * 2)
-            c_in = torch.cat([unconditional_conditioning, c])
-            # with torch.no_grad():
-            noise_pred_uncond, noise_pred = self.model.apply_model(
-                x_in, t_in, c_in
-            ).chunk(2)
-            noise_pred = noise_pred_uncond + unconditional_guidance_scale * (
-                noise_pred - noise_pred_uncond
-            )
-        log_latent(noise_pred, "noise prediction")
-        alphas = self.model.alphas_cumprod if use_original_steps else self.ddim_alphas
-        alphas_prev = (
-            self.model.alphas_cumprod_prev
-            if use_original_steps
-            else self.ddim_alphas_prev
+        assert unconditional_guidance_scale >= 1
+        x_in = torch.cat([x] * 2)
+        t_in = torch.cat([t] * 2)
+        c_in = torch.cat([unconditional_conditioning, c])
+        # with torch.no_grad():
+        noise_pred_uncond, noise_pred = self.model.apply_model(x_in, t_in, c_in).chunk(
+            2
        )
-        sqrt_one_minus_alphas = (
-            self.model.sqrt_one_minus_alphas_cumprod
-            if use_original_steps
-            else self.ddim_sqrt_one_minus_alphas
-        )
-        sigmas = (
-            self.model.ddim_sigmas_for_original_num_steps
-            if use_original_steps
-            else self.ddim_sigmas
+        noise_pred = noise_pred_uncond + unconditional_guidance_scale * (
+            noise_pred - noise_pred_uncond
        )
+
+        b = x.shape[0]
+        log_latent(noise_pred, "noise prediction")
+
        # select parameters corresponding to the currently considered timestep
-        a_t = torch.full((b, 1, 1, 1), alphas[index], device=device)
-        a_prev = torch.full((b, 1, 1, 1), alphas_prev[index], device=device)
-        sigma_t = torch.full((b, 1, 1, 1), sigmas[index], device=device)
+        a_t = torch.full((b, 1, 1, 1), self.ddim_alphas[index], device=x.device)
+        a_prev = torch.full((b, 1, 1, 1), self.ddim_alphas_prev[index], device=x.device)
+        sigma_t = torch.full((b, 1, 1, 1), self.ddim_sigmas[index], device=x.device)
        sqrt_one_minus_at = torch.full(
-            (b, 1, 1, 1), sqrt_one_minus_alphas[index], device=device
+            (b, 1, 1, 1), self.ddim_sqrt_one_minus_alphas[index], device=x.device
+        )
+        return self._p_sample_ddim_formula(
+            x,
+            noise_pred,
+            sqrt_one_minus_at,
+            a_t,
+            sigma_t,
+            a_prev,
+            noise_dropout,
+            repeat_noise,
+            temperature,
        )

+    @staticmethod
+    def _p_sample_ddim_formula(
+        x,
+        noise_pred,
+        sqrt_one_minus_at,
+        a_t,
+        sigma_t,
+        a_prev,
+        noise_dropout,
+        repeat_noise,
+        temperature,
+    ):
        # current prediction for x_0
        pred_x0 = (x - sqrt_one_minus_at * noise_pred) / a_t.sqrt()
-        if quantize_denoised:
-            pred_x0, _, *_ = self.model.first_stage_model.quantize(pred_x0)
        # direction pointing to x_t
        dir_xt = (1.0 - a_prev - sigma_t**2).sqrt() * noise_pred
-
-        noise = sigma_t * noise_like(x.shape, device, repeat_noise) * temperature
+        noise = sigma_t * noise_like(x.shape, x.device, repeat_noise) * temperature
        if noise_dropout > 0.0:
            noise = torch.nn.functional.dropout(noise, p=noise_dropout)
        x_prev = a_prev.sqrt() * pred_x0 + dir_xt + noise
        return x_prev, pred_x0

    @torch.no_grad()
-    def stochastic_encode(self, init_latent, t, use_original_steps=False, noise=None):
+    def stochastic_encode(self, init_latent, t, noise=None):
        # fast, but does not allow for exact reconstruction
        # t serves as an index to gather the correct alphas
-        if use_original_steps:
-            sqrt_alphas_cumprod = self.sqrt_alphas_cumprod
-            sqrt_one_minus_alphas_cumprod = self.sqrt_one_minus_alphas_cumprod
-        else:
-            sqrt_alphas_cumprod = torch.sqrt(self.ddim_alphas)
-            sqrt_one_minus_alphas_cumprod = self.ddim_sqrt_one_minus_alphas
+
+        sqrt_alphas_cumprod = torch.sqrt(self.ddim_alphas)
+        sqrt_one_minus_alphas_cumprod = self.ddim_sqrt_one_minus_alphas

        if noise is None:
            noise = torch.randn_like(init_latent, device="cpu").to(get_device())
@ -346,17 +332,12 @@ class DDIMSampler:
        t_start,
        unconditional_guidance_scale=1.0,
        unconditional_conditioning=None,
-        use_original_steps=False,
        img_callback=None,
        score_corrector=None,
        temperature=1.0,
    ):

-        timesteps = (
-            np.arange(self.ddpm_num_timesteps)
-            if use_original_steps
-            else self.ddim_timesteps
-        )
+        timesteps = self.ddim_timesteps
        timesteps = timesteps[:t_start]

        time_range = np.flip(timesteps)
@ -376,7 +357,6 @@ class DDIMSampler:
                cond,
                ts,
                index=index,
-                use_original_steps=use_original_steps,
                unconditional_guidance_scale=unconditional_guidance_scale,
                unconditional_conditioning=unconditional_conditioning,
                temperature=temperature,
--- a/imaginairy/samplers/kdiff.py
+++ b/imaginairy/samplers/kdiff.py
@ -2,6 +2,7 @@ import torch
 from torch import nn

 from imaginairy.img_log import log_latent
+from imaginairy.samplers.base import CFGDenoiser
 from imaginairy.utils import get_device
 from imaginairy.vendored.k_diffusion import sampling as k_sampling
 from imaginairy.vendored.k_diffusion.external import CompVisDenoiser
@ -29,19 +30,6 @@ class CFGMaskedDenoiser(nn.Module):
        return denoised


-class CFGDenoiser(nn.Module):
-    def __init__(self, model):
-        super().__init__()
-        self.inner_model = model
-
-    def forward(self, x, sigma, uncond, cond, cond_scale):
-        x_in = torch.cat([x] * 2)
-        sigma_in = torch.cat([sigma] * 2)
-        cond_in = torch.cat([uncond, cond])
-        uncond, cond = self.inner_model(x_in, sigma_in, cond=cond_in).chunk(2)
-        return uncond + (cond - uncond) * cond_scale
-
-
 class KDiffusionSampler:
    def __init__(self, model, sampler_name):
        self.model = model
@ -94,4 +82,4 @@ class KDiffusionSampler:
            callback=callback,
        )

-        return samples, None
+        return samples
--- a/imaginairy/samplers/plms.py
+++ b/imaginairy/samplers/plms.py
@ -18,11 +18,9 @@ logger = logging.getLogger(__name__)
 class PLMSSampler:
    """probabilistic least-mean-squares"""

-    def __init__(self, model, schedule="linear", **kwargs):
-        super().__init__()
+    def __init__(self, model, **kwargs):
        self.model = model
        self.ddpm_num_timesteps = model.num_timesteps
-        self.schedule = schedule
        self.device_available = get_device()

    def register_buffer(self, name, attr):
@ -108,7 +106,6 @@ class PLMSSampler:
        score_corrector=None,
        corrector_kwargs=None,
        x_T=None,
-        log_every_t=100,
        unconditional_guidance_scale=1.0,
        unconditional_conditioning=None,
        # this has to come in the same format as the conditioning, # e.g. as encoded tokens, ...
@ -128,14 +125,10 @@ class PLMSSampler:
                    )

        self.make_schedule(ddim_num_steps=num_steps, ddim_eta=eta)
-        # sampling
-        C, H, W = shape
-        size = (batch_size, C, H, W)
-        logger.debug(f"Data shape for PLMS sampling is {size}")

-        samples, intermediates = self.plms_sampling(
+        samples = self.plms_sampling(
            conditioning,
-            size,
+            (batch_size, *shape),
            callback=callback,
            img_callback=img_callback,
            quantize_denoised=quantize_x0,
@ -147,11 +140,10 @@ class PLMSSampler:
            score_corrector=score_corrector,
            corrector_kwargs=corrector_kwargs,
            x_T=x_T,
-            log_every_t=log_every_t,
            unconditional_guidance_scale=unconditional_guidance_scale,
            unconditional_conditioning=unconditional_conditioning,
        )
-        return samples, intermediates
+        return samples

    @torch.no_grad()
    def plms_sampling(
@ -166,7 +158,6 @@ class PLMSSampler:
        mask=None,
        x0=None,
        img_callback=None,
-        log_every_t=100,
        temperature=1.0,
        noise_dropout=0.0,
        score_corrector=None,
@ -198,7 +189,6 @@ class PLMSSampler:
            )
            timesteps = self.ddim_timesteps[:subset_end]

-        intermediates = {"x_inter": [img], "pred_x0": [img]}
        time_range = (
            list(reversed(range(0, timesteps)))
            if ddim_use_original_steps
@ -253,11 +243,7 @@ class PLMSSampler:
                img_callback(img, "img")
                img_callback(pred_x0, "pred_x0")

-            if index % log_every_t == 0 or index == total_steps - 1:
-                intermediates["x_inter"].append(img)
-                intermediates["pred_x0"].append(pred_x0)
-
-        return img, intermediates
+        return img

    @torch.no_grad()
    def p_sample_plms(
--- a/imaginairy/schema.py
+++ b/imaginairy/schema.py
@ -82,19 +82,19 @@ class WeightedPrompt:

 class ImaginePrompt:
    def __init__(
-            self,
-            prompt=None,
-            prompt_strength=7.5,
-            init_image=None,  # Pillow Image, LazyLoadingImage, or filepath str
-            init_image_strength=0.3,
-            seed=None,
-            steps=50,
-            height=512,
-            width=512,
-            upscale=False,
-            fix_faces=False,
-            sampler_type="PLMS",
-            conditioning=None,
+        self,
+        prompt=None,
+        prompt_strength=7.5,
+        init_image=None,  # Pillow Image, LazyLoadingImage, or filepath str
+        init_image_strength=0.3,
+        seed=None,
+        steps=50,
+        height=512,
+        width=512,
+        upscale=False,
+        fix_faces=False,
+        sampler_type="PLMS",
+        conditioning=None,
    ):
        prompt = prompt if prompt is not None else "a scenic landscape"
        if isinstance(prompt, str):
--- a/imaginairy/utils.py
+++ b/imaginairy/utils.py
@ -24,7 +24,7 @@ def get_device():
        return "cuda"

    if torch.backends.mps.is_available():
-        return "mps"
+        return "mps:0"

    return "cpu"

--- a/tests/test_clip_embedder.py
+++ b/tests/test_clip_embedder.py
@ -13,4 +13,8 @@ def test_text_conditioning():
    embedder = FrozenCLIPEmbedder()
    embedder.to(get_device())
    neutral_embedding = embedder.encode([""])
-    assert hash_tensor(neutral_embedding) == "263e5ee7d2be087d816e094b80ffc546"
+    hashed = hash_tensor(neutral_embedding)
+    if "mps" in get_device():
+        assert hashed == "263e5ee7d2be087d816e094b80ffc546"
+    elif "cuda" in get_device():
+        assert hashed == "3d7867d5b2ebf15102a9ca9476d63ebc"
--- a/tests/test_imagine.py
+++ b/tests/test_imagine.py
@ -8,7 +8,7 @@ from imaginairy.utils import get_device
 from . import TESTS_FOLDER

 device_sampler_type_test_cases = {
-    "mps": {
+    "mps:0": {
        ("plms", "b4b434ed45919f3505ac2be162791c71"),
        ("ddim", "b369032a025915c0a7ccced165a609b3"),
        ("k_lms", "b87325c189799d646ccd07b331564eb6"),
--- a/tox.ini
+++ b/tox.ini
@ -12,7 +12,7 @@ skip = */.tox/*,*/.env/*,build/*,*/downloads/*,other/*,prolly_delete/*,downloads
 linters = pylint,pycodestyle,pydocstyle,pyflakes,mypy
 ignore =
    Z999,C0103,C0301,C0114,C0115,C0116,
-    Z999,D100,D101,D102,D103,D105,D107,D202,D203,D212,D400,D401,D415,
+    Z999,D100,D101,D102,D103,D105,D107,D202,D203,D205,D212,D400,D401,D415,
    Z999,E501,E1101,
    Z999,R0901,R0902,R0903,R0193,R0912,R0913,R0914,R0915,
    Z999,W0221,W0511,W1203