从语言与学习的关系说起

read

一、语言是有相互促进或牵制的关系的

迁移不是玄学，它高度依赖“相似性”，而且常常近似互惠

事实：不同语言之间共同训练会出现“正迁移”或“负干扰”，并且这种关系有明显结构。

洞见：人类学习中，“先学什么、和什么一起学”不是个人偏好问题，而是可预测的结构性迁移：相似领域/相近表征更可能互相增益；差异巨大时更容易互相打架。

为什么？：相似领域共享更多“中间表征”（词形/语法/符号系统、概念分类、常见推理模板）。共享越多，新的输入越容易落到已有结构上；反之会在相同的注意力与记忆资源上竞争，产生混淆与遗忘（论文里对应“interference”）。

事实：加入更多训练语言会让每种语言的损失相对变差，这是论文所称的 curse of multilinguality；但它并非只能靠“给每种语言加同样多的数据”来解决。

洞见：对人类来说，“同时学更多东西”必然有退化压力；但退化不是线性的：如果新技能与旧技能存在可复用结构，你不需要按项目数线性增加每项投入，而更像是扩总投入 + 利用迁移抵消部分损失。

为什么？：多任务共享同一套认知资源（注意力、工作记忆、抽象结构）；当任务数增加，资源竞争带来退化。但若任务间共享结构足够多，学习会把一部分投入“摊销”到多个任务上，于是平均边际成本下降。论文中的 ψ<0 就是在量化这种“迁移补贴”。

怎么用：

事实：论文给出闭式公式：当语言覆盖从 K 扩到 rK，要保持原有语言的性能不下降，模型规模 N、总数据量 D_tot、以及算力 C 应该按幂律增长，并存在“全局最省算力”的点。

洞见：人类做“能力版图扩张”时，最有效的策略往往不是“把时间平均分给每一项”，而是找到一个总体投入增长率与结构化能力增长率的组合，使新增技能能吃到迁移红利，同时不把旧技能拖垮。

为什么？：平均主义会把有限资源稀释到每个任务，导致每项都在“刚够用/不够用”的边缘反复震荡。幂律扩容的含义是：当你扩张覆盖面，应该把更多增长放在“可共享的结构能力”（类比 N）与“整体暴露面”（类比 D_tot），而不是机械地给每项补同样的小时数。

怎么用：

事实：当目标是优化某个语言（或类比：某个具体技能），你可以选择从通用多语言底座微调，或从头训练；两者在不同预算下谁更划算并不一样。

洞见：人类学习里，“拿现成基础快速上手”（类比微调）适合短期目标；但若追求长期上限，往往需要某个阶段开始“回到第一性原理重建”（类比从头训练），否则会被早期借力形成的偏差与上限束缚住。

为什么？：微调之所以前期快，是因为它复用既有表征，减少冷启动；但它也继承既有表征的偏置与边界。长期来看，从头构建的体系能更贴合目标分布，最终超过“打补丁式”的适配。论文的曲线差异就是把这种“短期优势 vs 长期上限”量化出来。

怎么用：

事实：跨语言迁移的差异在训练早期就出现并保持；训练更久不会显著改变“哪些组合互补、哪些组合相冲”。但更大的模型规模能明显缓解负干扰。

洞见：在人类学习中，早期形成的“概念对齐方式”会长期影响迁移与干扰；当你发现两个领域互相拖拽时，单纯“再熬更久”未必有效，反而应优先提升“容量”（理解框架、工具、注意力质量、外部记忆系统），让两套表征能并存。

为什么？：如果兼容性差，延长练习只是重复强化冲突表征；而“容量提升”提供更多表示空间与更好的冲突分解能力（论文中对应：更大模型更能缓解 interference）。

怎么用：