的学习收敛速度。这里可以类比人,人学习的过程最重要的三大来源:说话、眼睛看世界、耳朵听东西,这三个信息可能最开始要引导的教育过程,是引导他讲东西,这也就是分阶段对齐的核心要义。从图来看,LLM Backbone以语言对齐为核心,分阶段去做多模态大模型的信息压缩,找到其中的信息系规律。 第二大类型,端到端对齐结构。就是对不同模态的数据同时学习,同时输入图像、文本各种各样的信息,直接把所有信息交叉并发,把所有的信息进行压缩,抽取里面的规律,最终达到理解这个世界,去驱动跟这个世界进行交互。 三、解读大模型技术发展三阶段,场景反哺技术阶段仍面临挑战 大模型能够帮我们做什么?我们很清楚大模型技术只是一个工具,从技术的角度去看,它帮我们把很多信息压缩,更高效地找...