代码收藏家技术教程 2025-02-24

【粉丝福利社】Python预训练视觉和大语言模型

标题	详情
作者简介	愚公搬代码
头衔	华为云特约编辑，华为云云享专家，华为开发者专家，华为产品云测专家，CSDN博客专家，CSDN商业化专家，阿里云专家博主，阿里云签约作者，腾讯云优秀博主，腾讯云内容共创官，掘金优秀博主，亚马逊技领云博主，51CTO博客专家等。
近期荣誉	2022年度博客之星TOP2，2023年度博客之星TOP2，2022年华为云十佳博主，2023年华为云十佳博主，2024年华为云十佳博主等。
博客内容	.NET、Java、Python、Go、Node、前端、IOS、Android、鸿蒙、Linux、物联网、网络安全、大数据、人工智能、U3D游戏、小程序等相关领域知识。
欢迎	👍点赞、✍评论、⭐收藏

文章目录

🚀前言

🚀一、Python预训练视觉和大语言模型

🔎1.内容简介

🔎2.作者简介

🚀前言

你想使用基础模型吗？这是一个很棒的起点！机器学习社区中的许多人多年来一直在关注着这些奇怪的“生物”，从它们最早出现在Transformer模型的最初几天，到它们在计算机视觉中的渗透和扩展，再到我们在当今世界中看到的几乎无处不在的文本生成和交互式对话。

但是基础模型是从哪里来的呢？它们是如何工作的？是什么让它们启动，应该在什么时候对它们进行预训练和微调？如何在数据集和应用上尽可能提高性能？需要多少个加速器？端到端应用程序是什么样子的？如何使用基础模型来掌控生成式人工智能？

本书希望能为这些非常重要的问题提供答案。毋庸置疑，这个领域的创新速度真的很惊人，每天都有比昨天更多的基础模型从开源和专有模型供应商那里上线。为了应对这一现实，我试图在整本书中关注最重要的概念基础。这意味着你在这里的认真学习能在未来几年得到回报。

在实际应用和指导方面，我主要关注通过AWS，特别是Amazon SageMaker提供云计算选项。在过去5年多里，我在AWS度过了非常愉快的时光，我很乐意与你分享我所有的知识和经验！注意，本书中分享的所有想法和观点都是我自己的，并不代表亚马逊的观点。

本书所有章节关注的皆是概念，而非代码。这完全是因为软件变化很快，而基础变化异常缓慢。本书的参考文献包含全书15章所有关键参考资源的链接，你可立刻将其用于所有学习内容的实践。

你可能会觉得以下的一切难以置信，但是，在我20岁出头的时候，我确实并没有在写代码：我在探索一种僧侣般的生活。我在亚利桑那州的一个冥想静修中心Garchen研究所住了5年。在这段时间里，我学会了如何冥想，集中注意力，观察情绪，养成良好的习惯。几年后，我在芝加哥大学获得了硕士学位，现在在亚马逊，这些品质在当今世界仍然非常有用！

我提我的这些经历是为了帮助你提振学习信心。机器学习、人工智能、云计算、经济学、应用程序开发，这些主题确实都不简单，但只要你全身心投入，思考手头问题的核心基础，一次又一次地迎击挑战，真的没有什么是你做不到的。这就是人性之美！如果连一个冥想的瑜伽人士都可以直接从一个静修小屋的深度沉默中学习如何预训练和微调基础模型，那么你也可以!

请坚定这一信念，继续学习本书！

本书读者对象

如果你是一名机器学习研究人员或爱好者，想开始一个基础建模项目，本书就是为你准备的。应用科学家、数据科学家、机器学习工程师、解决方案架构师、产品经理和学生都可从本书中受益。在学习本书前，必须掌握中级Python技术以及云计算的入门概念，要对深度学习的基本原理有深刻的理解，同时能对高级主题进行解释。《Python预训练视觉和大语言模型》内容涵盖了先进的机器学习和云技术，并以可操作、易于理解的方式进行了解释。

本书内容

第1章“预训练基础模型简介”介绍当今许多人工智能和机器学习系统的支柱——基础模型；深入探究其创建过程(也称预训练)，并分析提高模型准确性的竞争优势之所在；讨论支撑最先进模型的核心 Transformer 架构，如Stable Diffusion、BERT、Vision Transformer、CLIP、Flan-T5等；介绍用于解决各种用例的编码器和解码器框架。

第2章“数据集准备：第1部分”讨论数据集需要什么来启动一个有意义的预训练项目。该章是关于数据集准备的两个部分中的第1部分，会从业务指导着手，为基础建模寻找一个使数据变得有用的好用例，然后专注于数据集内容，使用定性和定量的方法将其与用于预训练其他顶级模型时使用的数据集进行比较。该章讲解如何使用缩放法则来确定数据集是否“足够大”且“足够好”，并在预训练时提高准确性；讨论偏差的识别和减少，以及多语言和多模态的解决方案。

第3章“模型准备”讲解如何选择最有用的模型作为预训练机制的基础，如何设置表示模型大小的参数、选择关键损失函数以及决定它们影响生产性能的方式，讲授如何结合缩放法则与数据集预期大小来设置用于指导实验的基础模型的大小范围。

第4章“云容器和云加速器”讲解如何将脚本容器化，并针对云加速器对其进行优化；介绍一系列用于基础模型的加速器，包括在整个机器学习生命周期中围绕成本和性能的权衡；讲解Amazon SageMaker和AWS的关键知识点，以便在加速器上训练模型、优化性能和解决常见问题。熟悉在AWS上使用加速器的读者可以跳过该章。

第5章“分布式基础知识”讲解用于大规模预训练和微调的分布式技术的概念基础。首先深入讲解机器学习的顶级分布式概念，特别是模型和数据并行；其次讲解如何将Amazon SageMaker与分布式软件集成，以便在尽可能多的GPU上运行作业；接着讲解如何为大规模训练优化模型和数据并行，特别是使用分片数据并行等技术；再讲解如何使用优化器状态分片(optimizer state sharding)、激活检查点(activation checkpointing)、编译(compilation)等高级技术来减少内存消耗；最后列举一些结合了上述所有概念的语言、视觉等方面的综合示例。

第6章“数据集准备：第2部分”讲解如何准备数据集，以便立即与所选择的模型一起使用；深入讲解数据加载器的概念，了解为什么它是训练大型模型时常见的错误源；介绍如何创建嵌入、使用词元分析器和其他方法为你首选的神经网络特征化原始数据——参照这些步骤，必能使用视觉和语言的方法准备整个数据集；讲解AWS和Amazon SageMaker上的数据优化，以便有效地将大大小小的数据集发送至训练集群。全章从训练循环开始倒推，逐步呈现大规模训练功能性深度神经网络需要的所有步骤。读者可以在该章的学习中跟随作者体验如何进行案例研究，一步步在SageMaker上展开10TB级的Stable Diffusion训练！

第7章“寻找合适的超参数”深入讲解控制顶级视觉和语言模型性能的关键超参数，如批量大小、学习率等。首先向新手概述超参数微调，并穿插讲解视觉和语言方面的关键示例；接下来，探讨基础模型中的超参数微调，间或介绍如今可能出现的情况和趋势；最后，讲解如何在Amazon SageMaker上寻找合适的超参数，在集群大小中采取增量步骤，并在此过程中更改每个超参数。

第8章“SageMaker的大规模训练”介绍Amazon SageMaker支持高度优化的分布式训练运行的主要特性和功能；讲解如何针对SageMaker训练优化脚本以及运用关键的可用性功能；讲解使用SageMaker进行分布式训练的后端优化，如GPU健康检查、弹性训练、检查点、脚本模型等。

第9章“高级训练概念”介绍大规模的高级训练概念，如评估吞吐量、计算每个设备的TFLOPS模型、编译，以及使用缩放法则来确定适宜的训练时长。承接第8章(在SageMaker上进行大规模训练)，继续在该章介绍一些特别复杂和高深的技术，降低作业的总成本。更低的成本会直接转化为更高的模型性能，毕竟这意味着可在相同的预算下训练更长时间。

第10章“微调和评估”讲解如何在用例特定的数据集上微调模型，将其性能与现成的公共模型进行比较；深入讲解几个关于语言、文本以及两者之间一切事宜的示例；讲解如何思考和设计一个人机回环评估系统，包括使ChatGPT发挥作用的同一RLHF！第10章着重讲解更新模型的可训练权值，模拟学习但不更新权重的技术(如提示微调和标准检索增强生成)则需要参见第13章或第15章。

第11章“检查、减少和监控偏差”分析大视觉、语言和多模态模型主流的偏差识别和减少策略；从统计学以及如何以批判性方式影响人类的角度来阐释偏差的概念；帮助读者掌握在视觉和语言模型中量化和消除偏差的主流方法，最终具备制定监控策略的能力，并能在应用基础模型时减少各种形式的伤害。

第12章“如何部署模型”介绍部署模型的各种技术，包括实时端点、无服务、批量选项等——这些概念适用于众多计算环境，但《Python预训练视觉和大语言模型》将重点关注使用Amazon SageMaker中AWS的可用功能，讨论为什么在部署之前应该尝试缩小模型，介绍视觉和语言技术，介绍适用于不需要缩小模型场景的分布式托管技术，探讨可以帮助优化模型的端到端性能的模型服务技术和概念。

第13章“提示工程”深入研究一组称为提示工程的特殊技术，高屋建瓴地讲解这项技术，包括它与本书中讲解的其他基于学习的主题的相似之处和不同之处；探讨视觉和语言方面的例子，深入研究关键术语和成功指标。特别是，该章还涵盖了在不更新模型权重的情况下提高性能的所有提示和技巧。这意味着我们将模拟学习过程，而不必改变任何模型参数。这包括一些高级技术，如提示和前缀微调。

第14章“视觉和语言MLOps”讲解机器学习的操作和编排的核心概念，即大家熟知的MLOps，包括构建管道、持续集成和部署、通过环境进行推广等；深入探讨模型预测的监控和人机回环审核的选项；确定在MLOps管道中支持大型视觉和语言模型的独特方法。

第15章“预训练基础模型的未来趋势”通过指出全书所有相关主题的趋势来结束本书。探讨基础模型应用程序开发的趋势，如使用LangChain构建交互式对话应用程序，以及检索增强生成等技术，以减少LLM幻觉；探讨用生成模型来解决分类任务、人性化设计以及其他生成模式(如代码、音乐、产品文档、PowerPoints等)；讨论SageMaker JumpStart Foundation Models、Amazon Bedrock、Amazon Titan和Amazon Code Whisperer等AWS产品，以及未来基础模型和预训练自身的最新趋势。