68
社区成员




AnyText 是一个多语言视觉文本生成和编辑模型,由阿里巴巴智能计算研究院的团队开源。
项目地址:GitHub
AnyText 由一个扩散管道组成,主要包括两个元素:辅助潜在模块 和 文本嵌入模块。
前者使用文本字形、位置和遮罩图像等输入,生成用于文本生成或编辑的潜在特征。
后者采用OCR模型将笔画数据编码为嵌入向量,这些嵌入向量与来自标记器的图像字幕嵌入向量混合,生成与背景无缝融合的文本。
AnyText 采用了文本控制扩散损失和文本感知损失进行训练,以进一步提高书写准确性。
来看看官方的案例展示: