温馨提示:本站为该正规票务导购网站,提供北京天桥艺术中心正规的购票信息展示。
你现在的位置:首页 > 演出资讯  > 歌剧话剧

概率建模视角下的AIGC艺术生成

更新时间:2026-01-20 15:20  浏览量:1

——人机共创的训练机制与创作范式重构

文 / 高 峰

摘要:本文立足于当代视觉文化研究的理论视野,聚焦人工智能生成内容(AIGC)深度介入艺术创作所引发的结构性转变,旨在阐明概率建模框架如何在数据结构、模型机制与生成策略的协同作用下,重塑艺术生产的逻辑与边界。研究认为,人机共创的出现,使“训练”由人工智能的技术性步骤扩展为连接创作者与模型的关键中介,其内涵涉及数据筛选背后的认知取向、提示词的语义组织方式,以及对潜在空间的策略性调控等多个层面。该机制推动艺术实践从传统“灵感—技法—作品”的线性结构,转向“数据构建—模型响应—交互反馈”的循环式生成体系。由此,AIGC不仅为未来艺术提供了一种更具扩展性的创作范式,也促使视觉文化在技术、媒介与审美结构上形成新的定位方式。

关键词:AIGC 计算艺术 概率建模 人机共创 训练

Abstract: Anchored in the theoretical horizon of contemporary visual culture studies, this paper examines the structural transformations triggered by the deep integration of AI-generated content (AIGC) into artistic creation. It aims to elucidate how a probability-modeling framework, through the coordinated operation of data structures, model mechanisms, and generative strategies, reshapes the logic and boundaries of artistic production. The study argues that the emergence of human–machine co-creation extends “training” beyond a purely technical procedure within artificial intelligence, repositioning it as a crucial intermediary between the creator and the model. Its connotations span multiple dimensions, including the cognitive orientations embedded in data selection, the semantic organization of prompts, and the strategic modulation of latent space. This mechanism shifts artistic practice from the traditional linear sequence of “inspiration–technique–work” toward a cyclic generative system characterized by “data construction–model response–interactive feedback.” Consequently, AIGC not only provides a more expansive paradigm for future artistic creation but also contributes to the reconfiguration of visual culture across technological, medial, and aesthetic dimensions.

Keywords: AIGC; computational art; probability-modeling; human–machine co-creation; training

在过去十余年中,算法技术在视觉文化生产中的角色已从辅助性的计算工具演变为深度参与创意生成的结构性力量。尤其是扩散模型、生成对抗网络以及多模态大型模型的广泛应用,使图像生成由原先的“呈现”逻辑转入“推断—生成”逻辑之中。视觉文化由此呈现一种新的生产形态:艺术对象不再由创作者直接构建,而是在数据、模型与算法规则的协同作用下形成。这种转变不仅影响艺术作品的形态,更促使创作者在观念定位、创作方法及知识结构上进行自我调整。一方面,算法的计算性结构被嵌入创作流程,成为审美与意义生成的运算框架;另一方面,创作者必须面对一个并非完全透明且不断演化的技术对象,从而在其边界内重新定义自身的能动性。

在学术研究中,关于“计算艺术”与“人工智能艺术”的讨论已较为丰富,涉及主体性〔1〕、创造性〔2〕、技术中介与艺术本体〔3〕等若干方向。然而,这些研究很大程度上仍集中在对人工智能能否“成为作者”或是否具备“创造性”的哲学与美学辩论。虽然相关讨论具有重要意义,但它们未充分触及艺术生成机制内部的运作逻辑,尤其是与现代生成模型密切相关的概率论与潜在空间结构。因此,当AIGC的技术特征逐渐稳定——例如基于潜变量的概率推断机制、跨模态对齐能力、语义控制与参数化采样等——新的研究需求便随之浮现,即有必要建立一种更贴近技术内部结构、同时兼顾艺术创作实践的理论框架,从而解释这一新型生成系统的美学潜能及其运行方式。

与此同时,人类创作者在生成式模型面前的角色也发生了显著变化。传统艺术创作强调创作者对材料、构图、媒介语法的直接掌握,而在AIGC语境中,创作者更像是在操作一个由高维概率分布构成的复杂系统。该系统的内部结构通常并不透明,生成路径也往往不具有线性因果性,而呈现一种以概率采样为驱动的展开方式。因而,创作者的工作模式更接近于干预潜在空间、调节生成过程,而非直接“塑造形象”。创作逻辑的这种转向,打破了传统关于艺术主体与技艺关系的稳定认知,也促使人们重新思考创作行为本身的结构。德国艺术家马里奥·克林格曼(Mario Klingemann)于2018年创作的装置艺术作品《路人记忆Ⅰ》(Memories of Passersby I,图1) ,是一件基于生成对抗网络(GAN)的实时影像装置,能够持续生成“永不重复的肖像”。该装置依托AIGC算法,在潜在空间不断进行概率采样,并据此生成一系列肖像画,使得观众所见图像不断变换。该作品曾于英国苏富比拍卖行展出,引发业界广泛讨论。

图1 [德] 马里奥·克林格曼 路人记忆I 计算机生成装置艺术作品 图片来源/英国苏富比拍卖行官网

目前,学界对于“人机共创”已达成一定共识,认为艺术创作不再是人对技术的单向度使用,而应视为一种人类与算法系统之间的协作过程。〔4〕然而,“共创”如何在具体层面发生?创作者与生成模型之间的交互应如何组织?对双方能力系统的要求是什么?这类更具方法论导向的问题在已有研究中尚未得到充分论述。尤其是“训练”这一概念的双重含义——即人对模型的训练与模型对人的反向塑造——在创作研究中尚处于概念化阶段,缺乏系统分析。鉴于此,有必要从生成模型的概率结构与内部机制出发,重新梳理创作系统的构成逻辑及其运作方式。

本文以“概率建模视角下的艺术生成逻辑”为理论基础,旨在揭示AIGC艺术生成的深层结构,并在此基础上探讨人机共创的有效方法。概率建模不仅能作为一种统计意义上的技术框架,还能提供理解生成过程的理论工具,使我们能够从潜在分布、语义结构、采样路径等方面解释艺术生成的动态过程。基于这样的理论基础,人机共创不再被视为简单的合作行为,而是一个由数据、模型、生成指令与创作者反馈构成的循环系统。创作者在这一系统中既是训练者,也是被训练者;其能力结构不仅包括艺术直觉与审美判断,还涉及对潜在空间结构的理解、对生成指令的调控能力以及对算法行为的预测能力。换言之,共创要求创作者具备一种新的“模型思维”。

本文的另一目标在于澄清艺术创作中的“训练机制”。长期以来,“训练”在讨论人工智能时几乎等同于模型学习阶段,而较少涉及创作者自身的学习过程。然而,在AIGC创作实践中,创作者的训练同样重要:如何编写有效的指令、如何理解模型的潜在空间走向、如何通过微调与反馈重塑模型的生成倾向,以及如何在连续迭代中形成稳定的艺术风格。尤其值得注意的是,创作者并非从外部对技术进行训练,而是在与技术互动过程中不断调整自己的操作逻辑与审美取向。换句话说,训练是一个双向的、动态的演化过程。

基于AIGC的艺术生成机制,若从概率建模的立场加以理解,其核心在于构建一个高维潜在分布,并在此分布中进行条件化采样。〔5〕数据在此框架中提供潜在分布的统计基础,模型则通过特定结构与训练策略逼近这一分布,而生成指令(包括提示词、参考图像与其他多模态输入)则通过约束或引导采样过程,使生成结果在潜在空间中沿着某种路径展开。换言之,艺术生成不再等同于直接的形象构造,而是一种在概率结构内部进行的“分布导航”。三者之间的关系可被视为自下而上与自上而下的双向影响:数据决定潜在分布的形态,模型调节其可操作性和表现能力,而指令则在生成时刻选择潜在空间中的具体落点。此机制的独特之处在于,艺术的“创作性”被重新分解到统计规律、模型结构与指令控制之间,使得艺术生成呈现一种更加系统化,同时也更为可塑的形态。

在这一理论框架下,数据构成了潜在分布的基础。潜在分布无论以何种形式被模型学习,其底层结构均以训练数据中的统计模式为依据。数据既体现了风格、内容、构图等视觉特征,同时还隐含文化语境、审美偏好乃至潜在的符号体系,因此其对潜在空间形态的塑形作用往往比技术文献中描述得更为深刻。尤其在大规模数据集的情境中,模型通过对海量样本的联合分布进行逼近,使得潜在空间呈现一种由多重语义层级叠加而成的结构。某些看似“生成性的”图像效果,实际上来源于数据分布中的长尾特征或弱相关信息,因而具备不可完全预测的局部表现。此外,数据的异质性会在潜在空间中形成褶皱和过渡带,使模型在不同视觉类型之间呈现复杂的插值路径。值得注意的是,数据并非只是被动输入,它往往带有历史积累与审美传统,使潜在分布继承既有视觉文化的结构性偏向。在此意义上,数据构成了生成机制的文化底层,并决定了模型可生成的艺术语言范围。

与数据的基础性不同,模型在此框架中承担对潜在分布进行结构化的职责。模型通过特定的体系结构(如变分自编码器、生成对抗网络或扩散模型)建立潜在空间与数据分布之间的映射关系,使得潜在分布不仅具有统计意义上的逼近性,还具备可供操控的生成属性。例如,扩散模型通过正向噪声过程与反向去噪过程,将潜在空间构建为可逐步还原的概率轨迹。模型的参数量及其组织方式决定了潜在分布的表达能力,也决定了艺术生成的细节密度与可控度。更重要的是,模型在训练中通过损失函数将数据中的某些模式强化为稳定特征,而将另一些弱化或忽略,这使模型在生成过程中的风格倾向并非中性。技术文献通常强调模型的“逼近能力”,但在艺术生成语境中,更值得重视的往往是模型对视觉特征的取舍机制以及这种取舍如何影响其生成风格。一些模型甚至在训练过程中形成具有相对稳定风格的“内在语法”,从而对创作者的操作产生限制或引导。模型因而既是技术媒介,也是生成逻辑的组织者。

相比数据与模型,生成指令的角色更具即时性和策略性,其包括提示词、图像、草图及其他模态形式的输入。在生成机制中,指令可视为一种对潜在分布中的条件化约束,用于从高维空间的多个可能路径中选择一条并加以放大。例如,提示词在语言—视觉对齐的结构下,会被转换为一组潜在空间向量,进而影响采样过程的方向;图像、草图及其他模态输入则通过与潜在空间的对接提供结构性参照,使生成不至于在概率意义上完全开放。指令的有效性取决于其语义清晰度、对模型内部结构的适应程度及其与潜在分布的契合度。指令越能与模型的语义结构保持同构关系,其对生成路径的控制便越稳定,反之,则可能导致生成结果偏离预期甚至出现不确定性。值得注意的是,指令并不是对潜在空间的单点定位,而更像是对采样机制的动态调节。在部分生成模型中,指令可以在采样过程的不同阶段施加不同权重,从而产生局部或整体的风格变化。由此,指令在本质上是一种生成策略,它使创作者能够在概率结构内部建立一种“路径感”,而非直接控制生成内容本身。

总体而言,在概率建模驱动的AIGC艺术生成理论框架中,数据、模型与指令不再被视为孤立的技术因素,而是共同构成一个有机系统。该系统以数据分布为基础层、以模型结构为机制层、以生成策略为调控层。这一生成机制重塑了艺术生产的结构,同时也改变了对创作者的能力要求,使创作者在技术、审美与策略三方面均需建立新的实践方式。

在AIGC广泛参与艺术生产的当下,训练机制已不再仅指向技术模型的构建前置环节,而逐渐演化为一种持续嵌入创作流程的组织形式。特别是在以概率建模为基础的AIGC系统中,生成过程体现为数据—模型—策略三元要素的动态联动。人机共创亦随之不再是单纯的分工合作,而转变为一种循环驱动、能力嵌套的协作机制。在此语境中,“训练”成为理解共创逻辑的关键入口,它既涉及创作者如何对模型施以调控与输入,也牵涉模型如何通过交互反过来塑造创作者的知觉方式与操作结构。本文将尝试从多个层面探讨训练机制的内在逻辑,强调其在数据标注、模型能力、创作者策略与交互反馈中的生成性。

(一)数据构建中的认知训练机制

长期以来,数据被视作模型学习的基础输入,其主要功能在于塑造潜在分布。然而,若将视野延伸至共创结构,不难发现数据构建过程本身对创作者同样构成一类隐性的训练机制。尤其在数据标注与筛选过程中,创作者需要对图像风格、语义意涵、视觉密度等因素做出连续判断。这类判断并不单纯是信息归类,更是一种在样式差异、构图结构与文化语境之间进行区分的复杂认知任务。换句话说,数据收集不仅塑造了模型的知识基础,也反过来参与了创作者认知结构的塑形。

此外,跨模态配对任务亦具有训练效应。文本—图像配对需要创作者识别语义单位在视觉层面上的呈现方式,并建立起语言与图像之间的结构映射。这一过程中,创作者往往需要重新组织自身的表达方式,使其既具有叙述性,又能被系统识别为潜在控制变量。这一转换并非自发完成,而是通过反复尝试、错误修正与语义重构实现的,其间隐含的能力建构不应被忽视。

可以说,数据构建不只是通向模型训练的手段,更是一种认知训练的过程,其结果不仅表现为模型性能的提升,也体现为创作者对艺术风格、结构语义与文化差异的敏感化。

(二)模型能力的结构性构成与共创前提

若将模型理解为共创的平等参与者,则必须提出一个前提性问题:生成模型是否具备相应的结构性能力,以承载协同创作所需的交互逻辑与语义表达?当前主流模型大多已具备对基本提示词的响应能力,然而,仅依赖词面映射远不足以构成共创所需的“语义适应性”。

首先,风格迁移的理解能力是基本要求。在概率建模的语境下,风格可被视为潜在分布在某一区域的密度结构。模型若不能准确识别风格之间的差异性与相似性,便难以在多样化生成任务中形成风格的一致性延续。部分研究指出,现有模型虽可基于提示词调用风格模板,但对细节纹理、构图语法与历史风格语境的感知尚处于表层阶段。这种局限在协作生成中常表现为样式泛化、形态不稳定等问题。

其次,模型的语义—形式映射能力必须具有一定程度的透明度。换言之,模型应能提供可预期的响应机制,使创作者能在一定语境中推断出生成路径与输出结果之间的关系。若提示词与图像结果之间不存在一致性逻辑,训练过程将缺乏反馈基础,共创将退化为试错式反应系统而非协作机制。

此外,潜在空间的可塑性是另一关键条件。创作者通过参数控制、样式干预与后处理调节参与生成路径选择,而这一切必须建立在潜在变量空间具备连续性与响应弹性的前提之上。模型若结构僵化,无法适应个体化偏好或创作者反馈,其生成潜力也将随之受限。

因此,模型的结构能力决定其生成内容的质量,同时也构成共创机制得以建立的认知支架。只有具备足够的风格识别力、提示响应性与潜能可塑性,模型方可进入“被协作”的位置,而非仅作为工具型中介。

(三)策略制定过程中的创作者能力训练

在AIGC艺术创作中,创作者的能动性主要体现在生成策略的制定与修正上。策略本质上是一种在潜在空间中设定边界与方向的操作活动,涉及语言表达、参数配置、样式调整等多个维度。提示词撰写即为最直接的体现,创作者需在语义、修辞与语境之间调配词汇,以构成既具控制性又保有生成空间的语言结构。

然而,提示词的撰写并非一次性操作,其生成效果往往需通过多轮迭代反馈进行调优。这一过程中,创作者会逐渐积累对模型语义响应模式的理解,并据此形成一套经验性表达策略。例如,不同形容词组合如何影响画面情绪,不同构图提示是否引发一致性形态变化,这类经验无法从模型文档中获取,只能通过交互中的反复试验得出。

进一步而言,采样参数(如种子值、CFG scale、迭代步数等)的调节也构成一种“技术性风格训练”。创作者在这一层面会逐步建立起对模型内部生成路径的感知能力,这种感知虽不具可视性,却会在操作中不断具体化。可以说,策略制定本身即一种嵌入生成系统的认知训练,其结果不仅体现为更优的输出效果,更在于创作者对模型结构的直觉掌握与反馈机制的感性构建。

(四)生成美学中的“训练结构”:从经验积累到方法论转化

随着人机共创实践的不断积累,提示构造、样式微调、反馈评估等过程正逐渐表现出一种可归纳、可传授的系统结构。这一结构虽然尚未形成稳定术语,但其方法论特征日益显现。提示词写作的规范化、样式组合策略的模板化、采样流程的可复现性,这些都使得生成艺术的训练机制具备了“教程”性质。

在艺术教育与社区实践中,已有相当多案例将“提示写作”“生成调优”“数据策展”作为教学模块嵌入创作课程。这表明训练机制正从个体经验转化为共享知识系统,其结构亦趋向标准化与系统化。生成美学的出现不再是技术偶然,而是策略建构与语义调控的结果,其背后是创作者对生成系统特征的持续理解与结构化使用。

此种生成训练机制的构建,使“艺术创作”这一传统语义范畴发生偏移,创作不再依赖工具之外的灵感,而成为“工具内部”的结构性训练实践。换言之,创作者不是将思想投射至媒介,而是在操作系统中生成思维路径。

(五)训练机制的循环逻辑与共进结构

最后需强调的是,在人机共创中,“训练”不应仅被理解为前期模型构建的技术性过程,而应被视为一种可持续、动态循环的生成机制。训练既包括创作者对模型的持续调节与微调,也包括模型输出反过来对创作者认知结构与语言表达方式的影响。模型生成结果中出现的偏差、风格倾向或失败图像,往往会促使创作者调整参数、重构提示,甚至反思自身的表达结构。这一往复过程构成一个典型的反馈闭环,其演化结构指向一个新的范式,即艺术实践不再是线性生产,而是一个“系统—感知—结构—反应”的协同演化机制。

从系统视角看,这一机制具备如下特征。其一,训练具有非封闭性,创作者可在任意节点重新介入调整;其二,训练具有层次递进性,反馈越充分,系统生成结构越精细;其三,训练构成能力共生基础,艺术家的操作逻辑与模型的响应结构在循环中互相重塑,形成一种“共生式生成语言”。

由此可见,训练机制不仅连接了技术模型与艺术表达,更在持续运行中塑造了共创结构本身。在生成系统的语境中,训练不仅是功能性支撑,更是美学与技术之间的关键中介。在基于概率建模的艺术生成理论框架下,笔者围绕肖像画的生成实践展开探索,以此论证人工智能介入艺术创作的可操作路径。具体而言,笔者与开发团队在现有艺术资源的基础上,对相关图像资料进行系统化整理与筛选,并据此构建了结构化的肖像画数据集(见图2),为模型训练奠定了视觉与语义双重基础。在此数据体系之上,团队进一步开发了肖像画生成系统,其部分实验性输出(见图3),呈现了模型在风格表达、形态重建与局部细节生成等方面的能力。

图2 肖像画数据集图像示例

图3 肖像画生成系统创作的部分作品(图为笔者项目截图)

当前的计算艺术实践已显露出一种迥异于传统艺术语境的生成逻辑。随着概率建模、深度学习和跨模态对齐技术的成熟,艺术创作逐渐转变为建立在数据、模型与策略协同基础上的复杂系统行为。在这一过程中,“训练”成为贯穿始终的核心机制,它不再局限于技术侧的模型调优,而扩展为人机双方共同的能力生产过程。从数据构建到规则设定,从提示词语言的形成到潜在空间的调节,创作者的工作方式发生了深层转折。其角色既非传统意义上的“指令发出者”,也非技术系统的被动使用者,而更接近一种在系统内部进行持续建构与修正的“语义组织者”。模型亦从单纯的工具渠道转向具有结构能力的协作体,通过响应、呈现乃至偏移来对接创作者的表达意图。在二者的往复互动中,共创机制逐渐形成稳定的反馈闭环,使训练成为人机双方共同进化的媒介装置。上述变化或许意味着艺术正在进入一种新的范式,创作者与系统共同塑造表达的条件,共同生成意义的结构。

因此,计算艺术的前景不应仅从技术发展轨迹推演,而应立足于人机共生结构的持续再生产过程予以理解。随着训练机制更加制度化、模型能力不断演化、生成策略趋于成熟,未来的艺术实践可能呈现出更复杂的交互形式与表达结构。这种变化并非对传统艺术的简单替代,而更像是在其基础上延展而出的一套新的生成体系,既为艺术在算法时代的继续生长提供可能性,也要求我们重新界定关于主体性、创作权与美学判断等关键问题。(本文为2021年度国家自然科学基金面上项目“基于人工智能的绘画艺术关键技术研究”阶段性成果,项目编号:62176006)

注释:

〔1〕丘挺《算法的规训与艺术的突围:数字时代绘画自主性的再发现》,《美术观察》2025年第9期。

〔2〕迪特·莫施、孟凡君、高晓芳《算法理性批判:非创造性的人工智能艺术》,《艺术探索》2024年第4期。

〔3〕刘润坤《人工智能取代艺术家?——从本体论视角看人工智能艺术创作》,《民族艺术研究》2017年第2期。

〔4〕田少煦、夏文英《计算创造与意义创建——AIGC语境下数字艺术的人机共创研究》,《山东社会科学》2025年第5期。

〔5〕张军平、孙凌云、靳聪等《人工智能生成内容最新进展(英文)》,《信息与电子工程前沿》(Frontiers of Information Technology & Electronic Engineering)2024年第1期。

高峰 北京大学艺术学院研究员

(本文原载《美术观察》2026年第1期)

场馆介绍
天桥艺术中心,最大的剧场1600个座位,可以承接大型歌舞晚会、音乐剧等;戏剧剧场有1000个座位,主要承接戏曲、儿童剧等;400个座位的小剧场则以上演话剧为主;此外,还有一个300个座位的多功能厅,可以进行小型演出... ... 更多介绍
场馆地图
北京市西城区天桥市场斜街
天桥艺术中心