一、语言是有相互促进或牵制的关系的
迁移不是玄学,它高度依赖“相似性”,而且常常近似互惠
事实:不同语言之间共同训练会出现“正迁移”或“负干扰”,并且这种关系有明显结构。
洞见:人类学习中,“先学什么、和什么一起学”不是个人偏好问题,而是可预测的结构性迁移:相似领域/相近表征更可能互相增益;差异巨大时更容易互相打架。
为什么?:相似领域共享更多“中间表征”(词形/语法/符号系统、概念分类、常见推理模板)。共享越多,新的输入越容易落到已有结构上;反之会在相同的注意力与记忆资源上竞争,产生混淆与遗忘(论文里对应“interference”)。

二、盲目多学不仅无益,反而有害
事实:加入更多训练语言会让每种语言的损失相对变差,这是论文所称的 curse of multilinguality;但它并非只能靠“给每种语言加同样多的数据”来解决。
洞见:对人类来说,“同时学更多东西”必然有退化压力;但退化不是线性的:如果新技能与旧技能存在可复用结构,你不需要按项目数线性增加每项投入,而更像是扩总投入 + 利用迁移抵消部分损失。
为什么?:多任务共享同一套认知资源(注意力、工作记忆、抽象结构);当任务数增加,资源竞争带来退化。但若任务间共享结构足够多,学习会把一部分投入“摊销”到多个任务上,于是平均边际成本下降。论文中的 ψ<0 就是在量化这种“迁移补贴”。
怎么用:
- 扩覆盖面时,先找共享结构:例如先补“通用底层”(数学、逻辑、写作结构、统计思维),再分叉到多个方向。
- 别用“平均主义”分配时间:对相似簇可以减少重复练习,把时间挪给“边界更远、迁移更弱”的部分。
三、学什么最有用?
事实:论文给出闭式公式:当语言覆盖从 K 扩到 rK,要保持原有语言的性能不下降,模型规模 N、总数据量 D_tot、以及算力 C 应该按幂律增长,并存在“全局最省算力”的点。
洞见:人类做“能力版图扩张”时,最有效的策略往往不是“把时间平均分给每一项”,而是找到一个总体投入增长率与结构化能力增长率的组合,使新增技能能吃到迁移红利,同时不把旧技能拖垮。
为什么?:平均主义会把有限资源稀释到每个任务,导致每项都在“刚够用/不够用”的边缘反复震荡。幂律扩容的含义是:当你扩张覆盖面,应该把更多增长放在“可共享的结构能力”(类比 N)与“整体暴露面”(类比 D_tot),而不是机械地给每项补同样的小时数。
怎么用:
- 做跨领域扩张时,把预算拆成两类:结构预算(构建可复用框架:概念地图、统一术语、解题范式)与 暴露预算(大量输入/练习)。
- 新增方向越多,越要优先增加结构预算,否则很快进入“多项目退化”。
四、从头开始还是站在巨人肩膀上?
事实:当目标是优化某个语言(或类比:某个具体技能),你可以选择从通用多语言底座微调,或从头训练;两者在不同预算下谁更划算并不一样。
洞见:人类学习里,“拿现成基础快速上手”(类比微调)适合短期目标;但若追求长期上限,往往需要某个阶段开始“回到第一性原理重建”(类比从头训练),否则会被早期借力形成的偏差与上限束缚住。
为什么?:微调之所以前期快,是因为它复用既有表征,减少冷启动;但它也继承既有表征的偏置与边界。长期来看,从头构建的体系能更贴合目标分布,最终超过“打补丁式”的适配。论文的曲线差异就是把这种“短期优势 vs 长期上限”量化出来。
怎么用:
- 先问自己预算与目标:若只为“尽快可用”,优先找能复用的底座(课程、模板、教练、成熟框架);若为“长期高阶”,把某个阶段专门留给“重建”。
- 用“阶段化策略”:先借力达成可用水平,再切换到系统化训练,把隐含假设逐条补齐。
智力才是决定性因素?
事实:跨语言迁移的差异在训练早期就出现并保持;训练更久不会显著改变“哪些组合互补、哪些组合相冲”。但更大的模型规模能明显缓解负干扰。
洞见:在人类学习中,早期形成的“概念对齐方式”会长期影响迁移与干扰;当你发现两个领域互相拖拽时,单纯“再熬更久”未必有效,反而应优先提升“容量”(理解框架、工具、注意力质量、外部记忆系统),让两套表征能并存。
为什么?:如果兼容性差,延长练习只是重复强化冲突表征;而“容量提升”提供更多表示空间与更好的冲突分解能力(论文中对应:更大模型更能缓解 interference)。
怎么用:
- 早期不要把强干扰的两件事高频交替;先分别建立稳定表征,再做交叉迁移。
- 若必须并行,优先做“容量升级”:用更清晰的笔记体系、概念图、对比表,把冲突点显式化,而不是只追加练习时长。