蚂蚁技术研究院最新开源:AI P图神器MagicQuill

未分类2个月前发布 tree
27 0 0
↑ 点击蓝字 关注极市平台
蚂蚁技术研究院最新开源:AI P图神器MagicQuill
作者丨蚂蚁技术研究院
来源丨蚂蚁技术研究院
编辑丨极市平台

极市导读

 

本文介绍了蚂蚁技术研究院最新开源的AI图像编辑工具MagicQuill,这是一个交互式的、能够快速实现智能化和精细化图像编辑的工具。用户可以通过简单的画笔涂抹和提示词来完成复杂的图像编辑任务。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

还在为 P 图烦恼,懊恼自己这不争气的手怎么就 P 不出来好看的图片?

蚂蚁技术研究院最新开源:AI P图神器MagicQuill

最近,蚂蚁技术研究院开源了一个交互式的 AI 图像编辑工具:MagicQuill ,可以快速、简单的实现智能化、精细化的图像编辑。即便是 PS 小白,也能轻松上手。用画笔涂抹加一句提示词,瞬间完成复杂繁琐的图像编辑功能。该项目在 Github 上 短短 4 天就斩获千颗 Star🌟!

蚂蚁技术研究院最新开源:AI P图神器MagicQuill

更是霸榜 Hugging Face应用排行榜第二!

蚂蚁技术研究院最新开源:AI P图神器MagicQuill

我们先来看看效果~



1、MagicQuill是什么

MagicQuill 是一个交互式的 AI 图片编辑工具,通过结合“编辑处理器” “绘画助手”和“创意收集器”三大功能,成功解决了图片的精准、高效编辑的难题。用户只需要用三种简单直观的魔法画笔就能轻松编辑图片:添加、删除和上色。系统通过多模态大语言模型 (MLLM) 动态预测用户的操作意图,并提供相关的编辑建议。

2、核心组成

蚂蚁技术研究院最新开源:AI P图神器MagicQuill

编辑处理器(Editing Processor): 系统的核心处理模块,主要负责确保高质量、可控的编辑生成,从而准确反映用户的编辑意图。它实现了两种基于笔刷的引导机制:用于结构性修改的涂鸦引导和用于修改颜色属性的颜色引导。该模块的技术设计受到ControlNet和BrushNet的启发,通过特殊的控制架构确保能够精确遵循用户引导的同时保持未修改区域不变,从而实现精确的图像编辑效果。

绘画助手(Painting Assistor): 其设计目标是预测和解释用户的编辑意图,有效减少用户在编辑过程中需要重复输入文本提示的繁琐步骤。该模块运用多模态大语言模型(MLLM)来解释用户的笔刷操作,并能够基于图像上下文自动预测相应的提示。通过引入创新的”你画我猜”任务,并利用模拟真实编辑场景的数据集进行微调,绘画助手实现了连续的编辑工作流,让用户无需手动输入提示即可进行持续的编辑操作。

创意收集器(Idea Collector): 专注于提供直观且易用的操作界面,它的设计兼容多个平台,包括Gradio和ComfyUI等。用户可以通过这个界面使用不同的笔刷进行绘制,操作各种笔画,并实现连续的编辑过程。创意收集器的设计理念是让用户能够轻松自如地实现各种编辑操作,为整个系统提供一个用户友好的交互入口,显著提升图像编辑的效率和用户体验。

3、 本地安装使用

对于 GPU 资源有限的朋友,可以直接在线试用:

Huggingface Demo:

https://huggingface.co/spaces/AI4Editing/MagicQuill

支付宝云:http://magic.chenjunfeng.xyz/

下载代码库

1  git clone --recursive https://github.com/magic-quill/MagicQuill.git
2  cd MagicQuill

下载需要用到的模型权重文件

1 wget -O models.zip "https://hkustconnect-my.sharepoint.com/:u:/g/personal/zliucz_connect_ust_hk/EWlGF0WfawJIrJ1Hn85_-3gB0MtwImAnYeWXuleVQcukMg?e=Gcjugg&download=1"
2  unzip models.zip

如果无法下载 .zip 文件,也可以通过浏览器直接下载。所有的权重文件大约 25 GB,下载可能需要一些时间。

当然,也可以直接在huggingface查看或下载模型文件。

1 https://huggingface.co/LiuZichen/MagicQuill-models

创建运行环境

1  conda create -n MagicQuill python=3.10 -y
2  conda activate MagicQuill

安装交互界面文件

1 pip install gradio_magicquill-0.0.1-py3-none-any.wh

安装 LLAVA 环境

1  cp -f pyproject.toml MagicQuill/LLaVA/
2  pip install -e MagicQuill/LLaVA/

安装环境依赖

1  pip install -r requirements.txt

运行

1 CUDA_VISIBLE_DEVICES=0 python gradio_run.py

国内的朋友,建议尝试export HF_ENDPOINT=https://hf-mirror.com使用huggingface镜像,以方便下载运行 MagicQuill 所需的一些模型文件。

如何使用

在 MagicQuill 中主要提供了三种“魔法画笔”:

添加画笔

可以根据画笔输入的形状、位置,生成相应的元素。比如在河边简单画一只鹿的形状,一只栩栩如生的小鹿就活了过来。

蚂蚁技术研究院最新开源:AI P图神器MagicQuill

又或者是在美女的脖子上简单画个项链的形状,就可以直接生成一张美女佩戴项链的图片。

蚂蚁技术研究院最新开源:AI P图神器MagicQuill

减法画笔

可以根据画笔涂抹的位置和形状,减去相应位置的内容或重新绘制区域。这不是妥妥的 P 图神器呀~

“有两根尾鳍的海豚?我们赶紧给它‘治疗’一下,去掉一个!”

蚂蚁技术研究院最新开源:AI P图神器MagicQuill

“我们把骷髅先生的帽子摘下来,让他凉快一下吧。”

蚂蚁技术研究院最新开源:AI P图神器MagicQuill

彩色画笔

可以根据画笔的染色,为图片进行上色,或者修改图片的颜色。

比如给美女的满头金色增加一缕蓝色和红色的头发。

蚂蚁技术研究院最新开源:AI P图神器MagicQuill

也可以让蛋糕上粉色的花变成蓝色。

蚂蚁技术研究院最新开源:AI P图神器MagicQuill

当然,你也可以将添加画笔和删除画笔组合使用。比如为这位帅哥换一条新的领带!

蚂蚁技术研究院最新开源:AI P图神器MagicQuill

如果你画完之后发现它猜出的并不是你想要的内容,你也可以直接告诉它你到底想画什么~

比如,我想画的是一条路,而不是画藤蔓。

蚂蚁技术研究院最新开源:AI P图神器MagicQuill

如果您是专业人士,也可以在下方的参数调整区域调整自己需要的参数。

蚂蚁技术研究院最新开源:AI P图神器MagicQuill

Base Model 支持不同的基础模型,有适合生成真实风格的:

SD1.5/realisticVisionV60B1_v51VAE.safetensors

(https://civitai.com/models/4201/realistic-vision-v60-b1)

适合幻想风格的:SD1.5/DreamShaper.safetensors

(https://civitai.com/models/4384?modelVersionId=128713)

适合肖像风格的:SD1.5/majicMIX_realistic

(https://civitai.com/models/43331/majicmix-realistic)

适合动漫风格的:

SD1.5/MeinaMix.safetensors和SD1.5/ghostmix_v20Bakedvae.safetensors

(https://civitai.com/models/7240?modelVersionId=948574)

(https://civitai.com/models/36520/ghostmix)

也可以调整Negative Prompt避免生成部分内容、还有Fine Edge精细边缘调整、Grow Size调整笔触大小、Edge Strength 边缘强化、Color Strength 颜色强度等等。

效果展示

蚂蚁技术研究院最新开源:AI P图神器MagicQuill
蚂蚁技术研究院最新开源:AI P图神器MagicQuill
蚂蚁技术研究院最新开源:AI P图神器MagicQuill
蚂蚁技术研究院最新开源:AI P图神器MagicQuill
蚂蚁技术研究院最新开源:AI P图神器MagicQuill

关于开发团队

蚂蚁技术研究院最新开源:AI P图神器MagicQuillMagicQuill 开发团队来自香港科技大学、蚂蚁集团、浙江大学、和香港大学等机构。其中 Zichen Liu、Yue Yu、Ka Leong Cheng、Wen Wang 四位作者目前都在蚂蚁技术研究院交互智能实验室实习。

作为蚂蚁技术研究院首批落地建成的实验室,交互智能实验室聚焦视觉和 NLP 基础模型研究,开发通用人工智能算法架构,包括内容生成、多模态理解、数字人技术等人机交互关键技术。

蚂蚁技术研究院最新开源:AI P图神器MagicQuill

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

蚂蚁技术研究院最新开源:AI P图神器MagicQuill

点击阅读原文进入CV社区

收获更多技术干货

© 版权声明

相关文章

暂无评论

暂无评论...