在机器学习与深度学习中,“model architecture”指模型的结构设计与组成方式,包括层的类型与排列(如卷积层、注意力层、全连接层)、连接方式、参数规模与信息流动路径等。它决定模型如何处理输入并生成输出。(在更广义语境中也可指“系统/模型的总体架构”。)
/ˈmɑːdəl ˈɑːrkɪtɛktʃər/
The model architecture is too large for my laptop.
这个模型架构对我的笔记本电脑来说太大了。
Although the training data stayed the same, changing the model architecture significantly improved the accuracy on unseen examples.
尽管训练数据没有变化,调整模型架构仍显著提升了对未见样本的准确率。
“Model”源自拉丁语 modulus(尺度、范式),在英语中逐渐发展出“用于解释或预测的抽象结构/模型”之意;“Architecture”源自希腊语 arkhitektōn(总工匠、建筑师),经拉丁语进入英语,含“结构设计、框架规划”。合在一起,“model architecture”字面即“模型的结构设计”,在人工智能领域用来强调“模型长什么样、层怎么搭、信息怎么走”。