使用 DCGAN 生成动漫小姐姐头像

HANG ♥ WRITING

ChatGPT 问世两年，我在 AI 的辅助下成为了一名 iOS 业余开发者如何使用 Netcat 构建简单的安全聊天系统 QuakeSense 震感，一款简洁原生的 iOS 地震通知 App App Store 中国大陆 ICP 备案最佳实践几款有意思的 Google Chrome 侧边栏扩展应用 GetVM 让编程学习更快一步 WildCard (野卡) - 国内用户零门槛订阅 ChatGPT、Claude、App Store 万里汇开发者收款使用全指南 | 注册、开户与账户绑定教程中国大陆居民开通华侨银行（OCBC）海外账户完全指南实用的 macOS 内置命令，省下买第三方应用的钱《认知觉醒》之触动学习法不是程序员也可以搞开发，一小时入门 Retool 低代码疫情来袭，手把手教你在家制作美味炒鸡企业微信机器人 Webhook 推送语雀更新消息基于 Cloudflare Workers 部署的 JSON Database 数据库印象时间：印象笔记出品的时间管理应用 Pixelmator Photo 2.0: 桌面级功能并适配 iPhone Shortery：Mac 快捷指令自动化 Pixelmator Pro 2.3：AI 背景去除 Quit All：一键退出应用程序 Raycast：推出官方扩展商店和开发者平台简悦 API 2.0：收藏助手和快照功能 HomePod mini 使用体验 Prizmo 5.5：扫描效果增强并新增批注功能 Notion：近期值得关注的新特性 Google Analytics 替代品，零成本和零门槛搭建 umami.is Infuse 7：一款近乎完美的视频播放器 Gyroscope 4.14：新的产品名称和多项改进 V day：在手机上创作短视频 Things 3.14：备注支持 Markdown，同步速度加快 MoneyWiz 2021：新的通知选项和视觉改善 Doppler：管理和分享你的本地音乐 CARROT Weather：5.3 带了多项新特性 Obsidian：知名知识管理工具推出移动应用 NOMO RAW：专业 ProRAW 相机 Tape：全能且好用的录屏软件 Apple Design Award 2021 Craft 1.6：每日笔记重磅更新 Trakt：官方 iOS 应用全新上线 Notion：支持 API 和自动化集成 Varlens：iOS 专业相机应用 Infuse 7：不只是 M1，支持所有 Mac 简悦：支持 API 和自动化流程奇妙组件：小而美的自定义 iOS 小组件 Farbox 2：支持自部署和多站点的开源博客系统图图记账：高颜值记账应用 Coppice：帮助整理你的想法 DarkModeBuddy：基于光线切换深色模式走进微软成都 Office，聊一聊 Microsoft 365 HapiGo：符合国情的效率启动器 Eagle 2.0：数十项功能更新 + 数倍的性能提升无需记账，通过更新余额了解自己有「多少资产」 Dato：支持日历和时区的菜单栏时钟极具潜力的效率启动器 App，Raycast 脚本功能详解 Pixelmator Pro 2.0.2：增加新效果，支持 ProRAW Raycast：面向开发人员的效率启动器 Sorted：全新的 Mac 版本，原生支持 Apple Silicon App Store 和 Google Play 的 2020 年度 App 榜单 VSCO：全新的视频效果和拍摄模式 Pixelmator Pro 2.0：全新设计并支持 M1 芯片 Maipo 4：全功能新浪微博 macOS 客户端 Bartender 4：Mac 菜单栏定制工具 JSBox：适配并支持 iOS 14 小组件 Little Snitch 5：macOS 上出色的流量监控与防火墙应用 Photoshop：更多的 AI 创意工具 Capslox：文本操作快捷键增强效率工具 Airport：TestFlight 测试应用商店 Disk Drill 4：全新设计，支持 macOS 11 Big Sur OneWidget：小组件中的瑞士军刀 Todoist：新增看板视图 IFTTT Pro：合理的定价、全新的特性 PooPoo Privacy Policy QuakeSense Privacy Policy | 震感 App 隐私政策 ThenNow Privacy Policy | 今昔 App 隐私政策 LaunchBar 6.13：支持 macOS Big Sur 24 Hour Wallpaper：近百张 Mac 动态壁纸简悦 2.0 阅读模式 + 标注系统 + 稍后读绕过 App Store 付费，Setapp 采用新的 iOS 付费应用解锁策略 Noto 笔记：2.3 版本带来 10 余项功能更新 PliimPRO：让 Mac 一键进入演示模式 Pixelmator Pro 1.7：文字输入、画布旋转和 ML 超分辨率更新 Ulysses 20：新增导航面板和中文拼写检查 Mailbrew：新增 Inbox 集中订阅 Newletter Fluent Reader：免费跨平台 RSS 阅读器 Moment：高颜值 Mac 状态栏倒数日应用 Meeter：集中管理你的远程会议 Adobe Lightroom：新版带来了众多实用特性 WWDC：在 Mac 上观看 WWDC 直播和视频 LongWe：Mac 上的文本长图生成工具 Photoshop Camera：风格独特的艺术效果 Empoche：任务管理和时间追踪二合一 Camera+ 2：Magic ML 带来照片处理新魔法 Tuck：将窗口停靠在屏幕边缘 Wormhole：在电脑上操作 iOS 和 Android 设备 Coherence X：一键将网页转换为桌面应用 Charty：让快捷指令支持图表可视化 Edison Mail：又一款免费邮件客户端 Service Station：定制 Mac 右键菜单 WatchSmith：前所未有地个性化 Apple Watch Data Jar：为捷径设计的数据库

使用 DCGAN 生成动漫小姐姐头像

huhuhang · 2019-02-23 · via HANG ♥ WRITING

生成对抗网络是 2014 年由伊恩·古德费洛等人提出的一种非监督式学习方法 arXiv:1406.2661v1，该方法的特点是通过让两个神经网络相互博弈的方式进行学习。DCGAN 是 GAN 的一种十分实用的延伸网络，它由 Alec Radford 等人于 2015 年提出 arXiv:1511.06434。

DCGAN 的全称为：Deep Convolutional Generative Adversarial Networks，翻译成中文也就是：深度卷积生成对抗网络。DCGAN 将卷积网络引入到生成式模型当中来做无监督的训练。这种结构很好地利用了卷积网络强大的特征提取能力，从而有效提高了生成网络的学习效果。

数据集

首先，你需要找到一些动漫人物头像数据。不用特别多，几千张就可以了。这里推荐一个网站 Danbooru，可以直接使用爬虫爬取。

网络搭建

我们可以使用 TensorFlow 或者 PyTorch 来构建网络。这里推荐使用 PyTorch，因为其提供的 Dataloader 数据加载器非常适合用来对图像进行预处理和小批量加载。

下面提供一段示例代码，你需要将头像图片放置在 avatar 目录下方。

import torch
from torchvision import datasets, transforms

# 定义图片处理方法
transforms = transforms.Compose([
    transforms.Resize(64),
    transforms.CenterCrop(64),
    transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])

dataset = datasets.ImageFolder('avatar/',
                               transform=transforms)

dataloader = torch.utils.data.DataLoader(dataset,
                                         batch_size=16,
                                         shuffle=True,
                                         num_workers=2
                                         )

网络主体需要参考 DCGAN 论文来实现，下面是 DCGAN 网络结构图。

结合网络结构图，就可以实现生成器和判别器网络了。


from torch import nn

class Generator(nn.Module):
    def __init__(self):
        super(Generator, self).__init__()
        self.main = nn.Sequential(
            nn.ConvTranspose2d( 100, 64 * 8, 4, 1, 0, bias=False),
            nn.BatchNorm2d(64 * 8),
            nn.ReLU(True),
            nn.ConvTranspose2d(64 * 8, 64 * 4, 4, 2, 1, bias=False),
            nn.BatchNorm2d(64 * 4),
            nn.ReLU(True),
            nn.ConvTranspose2d( 64 * 4, 64 * 2, 4, 2, 1, bias=False),
            nn.BatchNorm2d(64 * 2),
            nn.ReLU(True),
            nn.ConvTranspose2d( 64 * 2, 64, 4, 2, 1, bias=False),
            nn.BatchNorm2d(64),
            nn.ReLU(True),
            nn.ConvTranspose2d( 64, 3, 4, 2, 1, bias=False),
            nn.Tanh()
        )

    def forward(self, input):
        return self.main(input)

class Discriminator(nn.Module):
    def __init__(self):
        super(Discriminator, self).__init__()
        self.main = nn.Sequential(
            nn.Conv2d(3, 64, 4, 2, 1, bias=False),
            nn.BatchNorm2d(64),
            nn.LeakyReLU(0.2, inplace=True),
            nn.Conv2d(64, 64 * 2, 4, 2, 1, bias=False),
            nn.BatchNorm2d(64 * 2),
            nn.LeakyReLU(0.2, inplace=True),
            nn.Conv2d(64 * 2, 64 * 4, 4, 2, 1, bias=False),
            nn.BatchNorm2d(64 * 4),
            nn.LeakyReLU(0.2, inplace=True),
            nn.Conv2d(64 * 4, 64 * 8, 4, 2, 1, bias=False),
            nn.BatchNorm2d(64 * 8),
            nn.LeakyReLU(0.2, inplace=True),
            nn.Conv2d(64 * 8, 1, 4, 1, 0, bias=False),
            nn.Sigmoid()
        )

    def forward(self, input):
        return self.main(input)

定义损失函数和优化器是必不可少的步骤：

netD = Discriminator()
netG = Generator()
criterion = nn.BCELoss()

lr = 0.0002
optimizerD = torch.optim.Adam(netD.parameters(), lr=lr, betas=(0.5, 0.999))
optimizerG = torch.optim.Adam(netG.parameters(), lr=lr, betas=(0.5, 0.999))

最后就可以完成网络训练，并使用噪声数据进行测试了。

from torchvision.utils import make_grid
from matplotlib import pyplot as plt
from IPython import display
%matplotlib inline

epochs = 100
for epoch in range(epochs):
    for n, (images, _) in enumerate(dataloader):

        real_labels = torch.ones(images.size(0))
        fake_labels = torch.zeros(images.size(0))

        netD.zero_grad()
        output = netD(images)
        lossD_real = criterion(output.squeeze(), real_labels)

        noise = torch.randn(images.size(0), 100, 1, 1)
        fake_images = netG(noise)
        output2 = netD(fake_images.detach())
        lossD_fake = criterion(output2.squeeze(), fake_labels)
        lossD = lossD_real + lossD_fake
        lossD.backward()
        optimizerD.step()

        netG.zero_grad()
        output3 = netD(fake_images)
        lossG = criterion(output3.squeeze(), real_labels)
        lossG.backward()
        optimizerG.step()

        fixed_noise = torch.randn(64, 100, 1, 1)
        fixed_images = netG(fixed_noise)
        fixed_images = make_grid(fixed_images.data,
                                 nrow=8, normalize=True).cpu()
        plt.figure(figsize=(6, 6))
        plt.title("Epoch[{}/{}], Batch[{}/{}]".format(epoch+1,
                                                      epochs,
                                                      n+1,
                                                      len(dataloader)))
        plt.imshow(fixed_images.permute(1, 2, 0).numpy())
        display.display(plt.gcf())
        display.clear_output(wait=True)

以下，是迭代 100 个 Epoch 之后的测试结果，可以看到效果还是不错的。

GAN 是近些年来快速发展的网络结构，但由于其模型过于自由，很容易出现训练不收敛，模型崩溃等问题。不过在数据增强，图片生成等方面，GAN 还是有很多的发展空间。未来值得期待。

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

HANG ♥ WRITING

数据集

网络搭建