AI相关概念
1. AI相关概念
1. AI是什么?
人工智能(Artificial Intelligence, AI) 是计算机科学的一个分支,就是让机器像人一样“聪明”,能帮我们做事情。比如,它可以看、听、说、思考,甚至还能学习和解决问题。
举个例子:
- 你问 Siri 或小爱同学:“今天天气怎么样?”。它会告诉你天气预报。这就是一种人工智能。
2. AI 的核心技术
1. 机器学习(Machine Learning, ML)
- 核心思想:让机器从数据中自动学习规律。
- 常见算法:
- 决策树、支持向量机(SVM)、随机森林。
- 神经网络(Neural Networks)及其变体(如 CNN、RNN、Transformer)。
2. 深度学习(Deep Learning)
- 深度学习是机器学习的一个子领域,基于多层神经网络。
- 应用场景:
- 图像识别、自然语言处理、语音识别。
3. 自然语言处理(Natural Language Processing, NLP)
- 使计算机能够理解、生成和处理人类语言。
- 核心技术:
- 分词、词嵌入(Word Embedding)、语义分析。
- 示例模型:BERT、GPT、通义千问。
4. 计算机视觉(Computer Vision, CV)
- 让计算机能够“看”并理解图像或视频内容。
- 核心技术:
- 图像分类、目标检测、语义分割。
- 示例模型:ResNet、YOLO、ViT。
5. 强化学习(Reinforcement Learning, RL)
- 通过试错学习最优策略。
- 应用场景:
- 游戏 AI(如 AlphaGo)、机器人导航。
6. 知识图谱(Knowledge Graph)
- 结构化的知识表示形式,用于存储和推理实体之间的关系。
- 应用场景:
- 搜索引擎优化、智能问答。
2. 大模型
2.1 大模型是什么?
大模型是指参数量巨大(通常达到数十亿甚至上万亿)、训练数据丰富、功能强大的预训练模型。
- 它们通常基于 Transformer 架构,并通过自监督学习从海量数据中提取知识。
- 大模型是 AI 的一个重要分支
2.2 大模型的分类
1. 大语言模型(Large Language Models, LLMs)
- 定义:专注于自然语言处理(NLP)任务的大模型。
- 特点:
- 主要处理文本数据,能够生成高质量的文章、对话、代码等。
- 具备上下文理解和多语言支持能力。
- 代表模型
- GPT 系列(GPT-3、GPT-4)
- BERT、RoBERTa
- 通义千问(Qwen)
- 文心一言(ERNIE)
2. 视觉大模型(Vision Large Models)
- 定义:专注于计算机视觉任务的大模型。
- 特点:
- 处理图像或视频数据,能够完成分类、检测、分割等任务。
- 常用于自动驾驶、医疗影像分析等领域。
- 代表模型:
- ViT(Vision Transformer)
- Swin Transformer
- CLIP(跨模态图像-文本对齐)
3. 多模态大模型(Multimodal Large Models)
- 定义:能够同时处理多种类型数据(如文本、图像、音频)的大模型。
- 特点
- 融合了不同模态的信息,实现跨模态的理解和生成。
- 应用场景广泛,例如图文生成、视频理解等。
- 代表模型
- Flamingo
- M6(阿里巴巴通义实验室)
- Gemini(谷歌)
2.3 大模型的训练
大模型的训练整体上分为三个阶段:
预处理
预处理是指在训练模型之前对原始数据进行清洗和准备的过程。这一步骤的目标是确保输入到模型中的数据质量高且一致,包括但不限于以下几个方面:
- 数据清洗:去除噪声、错误信息、重复内容等。
- 格式统一:将不同来源的数据转换为统一格式,以便于后续处理。
- 分词:根据特定规则或词汇表将文本分割成单词或标记序列。
- 归一化:如大小写转换、数字替换等,以减少变异性。
监督微调(SFT,Supervised Fine-tuning)
监督微调是在一个已经经过大量未标注数据训练的基础模型上,使用带有标签的小规模数据集进一步训练的过程。其主要目的是让模型学会执行特定任务,例如文本分类、问答等。监督微调通常涉及以下步骤:
- 准备一个专门针对目标任务的高质量标注数据集。
- 在基础模型的基础上继续训练,调整模型参数以适应目标任务。
- 这个过程有助于提高模型在特定任务上的性能表现。
基于人类反馈的强化学习(RLHF,Reinforcement Learning with Human Feedback )
RLHF是一种结合了人类判断来改进模型行为的方法,尤其适用于那些难以直接通过传统损失函数衡量的任务,比如生成式对话系统。RLHF大致包含三个阶段:
初始策略训练:首先基于一些基本准则或者初步的标注数据训练一个初始模型。
偏好数据收集:让人类评估者对模型生成的不同输出进行评分,以此收集偏好数据。
强化学习:利用收集到的人类偏好作为奖励信号,通过强化学习算法(如PPO)进一步优化模型,使其生成更符合人类期望的结果。
2.4 大模型的核心概念
- 参数规模:
- 大模型通常具有数十亿甚至上万亿个参数,远超传统模型。
- 参数量越大,模型越能捕捉复杂的数据模式。
- 预训练与微调:
- 预训练:使用海量无标注数据训练通用模型,学习数据中的基础规律。
- 微调:在特定任务上用少量标注数据对预训练模型进行调整,以适应具体应用场景。
- 多模态能力:
- 现代大模型不仅处理文本,还能处理图像、音频、视频等多种类型的数据,实现跨模态理解和生成。
- 泛化能力:
- 大模型通过大规模训练,具备较强的零样本(Zero-shot)、少样本(Few-shot)和迁移学习能力。
2.5 大模型代表模型
通义千问(Qwen)、文心一言(ERNIE)、DeepSeek 和 ChatGPT s
- 都是基于 Transformer 架构 的大模型。
- 可以被视为基于 AIGC(Artificial Intelligence Generated Content,人工智能生成内容) 的技术或应用。它们的核心功能之一是利用人工智能生成高质量的内容,例如文本、代码、图像等。
模型名称 | 开发者 | 基于架构 | 主要特点 |
---|---|---|---|
通义千问 | 阿里巴巴 | Transformer | 多语言支持、对话理解能力强 |
文心一言 | 百度 | Transformer | 知识增强、中文场景优化 |
DeepSeek | DeepSeek | Transformer | 开源、轻量化、高性价比 |
ChatGPT | OpenAI | Transformer (GPT) | 对话流畅、支持多模态任务 |
3. AIGC
3.1 AIGC 是什么?
AIGC(Artificial Intelligence Generated Content,人工智能生成内容) 是指利用人工智能技术自动生成各种形式的内容,包括文本、图像、音频、视频等。
3.2 AIGC和大模型的关系?
1. 大模型为 AIGC 提供核心能力
- 强大的生成能力:
- 大模型通常具有海量参数和丰富的训练数据,能够学习到复杂的数据分布和模式。
- 这种能力使得大模型可以生成高质量的文本、图像、音频、视频等多模态内容。
- 跨模态理解与生成
- 现代大模型(如通义千问、Gemini、CLIP 等)不仅擅长单一模态任务,还能实现跨模态的理解与生成。
- 例如,通过输入一段文本描述,大模型可以生成对应的图像或视频。
- 零样本和少样本学习
- 大模型经过大规模预训练后,具备一定的零样本(Zero-shot)和少样本(Few-shot)学习能力。
- 这使得 AIGC 应用可以在没有大量标注数据的情况下快速适应新任务。
- 上下文理解和逻辑推理
- 大模型能够捕捉长距离依赖关系,并进行复杂的上下文理解和逻辑推理。
- 这为生成连贯且有意义的内容提供了保障。
2. AIGC 是大模型的应用场景
- 文本生成:
- 基于大模型的文本生成技术被广泛应用于写作助手、聊天机器人、代码生成等领域。
- 示例:GPT 系列、通义千问等。
- 图像生成
- 大模型结合扩散模型(Diffusion Model)或生成对抗网络(GAN),可以生成高质量的图像。
- 示例:DALL·E、MidJourney、Stable Diffusion 等。
- 音频生成
- 大模型可用于生成音乐、语音合成、声音效果等。
- 示例:Music Transformer、WaveNet 等。
- 视频生成
- 结合大模型和时序建模技术,可以生成动态的视频内容。
- 示例:Make-A-Video、Phenaki 等。
- 多模态生成
- 大模型支持多种模态的融合与生成,例如从文本生成图像或视频,或将图像转化为文本描述。
- 示例:Flamingo、M6 等。