AI相关概念

1. AI相关概念

1. AI是什么?

人工智能(Artificial Intelligence, AI) 是计算机科学的一个分支,就是让机器像人一样“聪明”,能帮我们做事情。比如,它可以看、听、说、思考,甚至还能学习和解决问题。

举个例子:

  • 你问 Siri 或小爱同学:“今天天气怎么样?”。它会告诉你天气预报。这就是一种人工智能。

2. AI 的核心技术

1. 机器学习(Machine Learning, ML)

  • 核心思想:让机器从数据中自动学习规律。
  • 常见算法:
    • 决策树、支持向量机(SVM)、随机森林。
    • 神经网络(Neural Networks)及其变体(如 CNN、RNN、Transformer)。

2. 深度学习(Deep Learning)

  • 深度学习是机器学习的一个子领域,基于多层神经网络。
  • 应用场景:
    • 图像识别、自然语言处理、语音识别。

3. 自然语言处理(Natural Language Processing, NLP)

  • 使计算机能够理解、生成和处理人类语言。
  • 核心技术:
    • 分词、词嵌入(Word Embedding)、语义分析。
    • 示例模型:BERT、GPT、通义千问。

4. 计算机视觉(Computer Vision, CV)

  • 让计算机能够“看”并理解图像或视频内容。
  • 核心技术:
    • 图像分类、目标检测、语义分割。
    • 示例模型:ResNet、YOLO、ViT。

5. 强化学习(Reinforcement Learning, RL)

  • 通过试错学习最优策略。
  • 应用场景:
    • 游戏 AI(如 AlphaGo)、机器人导航。

6. 知识图谱(Knowledge Graph)

  • 结构化的知识表示形式,用于存储和推理实体之间的关系。
  • 应用场景:
    • 搜索引擎优化、智能问答。

2. 大模型

2.1 大模型是什么?

大模型是指参数量巨大(通常达到数十亿甚至上万亿)、训练数据丰富、功能强大的预训练模型。

  • 它们通常基于 Transformer 架构,并通过自监督学习从海量数据中提取知识。
  • 大模型是 AI 的一个重要分支

2.2 大模型的分类

1. 大语言模型(Large Language Models, LLMs)

  • 定义:专注于自然语言处理(NLP)任务的大模型。
  • 特点:
    • 主要处理文本数据,能够生成高质量的文章、对话、代码等。
    • 具备上下文理解和多语言支持能力。
  • 代表模型
    • GPT 系列(GPT-3、GPT-4)
    • BERT、RoBERTa
    • 通义千问(Qwen)
    • 文心一言(ERNIE)

2. 视觉大模型(Vision Large Models)

  • 定义:专注于计算机视觉任务的大模型。
  • 特点:
    • 处理图像或视频数据,能够完成分类、检测、分割等任务。
    • 常用于自动驾驶、医疗影像分析等领域。
  • 代表模型:
    • ViT(Vision Transformer)
    • Swin Transformer
    • CLIP(跨模态图像-文本对齐)

3. 多模态大模型(Multimodal Large Models)

  • 定义:能够同时处理多种类型数据(如文本、图像、音频)的大模型。
  • 特点
    • 融合了不同模态的信息,实现跨模态的理解和生成。
    • 应用场景广泛,例如图文生成、视频理解等。
  • 代表模型
    • Flamingo
    • M6(阿里巴巴通义实验室)
    • Gemini(谷歌)

2.3 大模型的训练

大模型的训练整体上分为三个阶段:

  1. 预处理

    预处理是指在训练模型之前对原始数据进行清洗和准备的过程。这一步骤的目标是确保输入到模型中的数据质量高且一致,包括但不限于以下几个方面:

    • 数据清洗:去除噪声、错误信息、重复内容等。
    • 格式统一:将不同来源的数据转换为统一格式,以便于后续处理。
    • 分词:根据特定规则或词汇表将文本分割成单词或标记序列。
    • 归一化:如大小写转换、数字替换等,以减少变异性。
  2. 监督微调(SFT,Supervised Fine-tuning)

    监督微调是在一个已经经过大量未标注数据训练的基础模型上,使用带有标签的小规模数据集进一步训练的过程。其主要目的是让模型学会执行特定任务,例如文本分类、问答等。监督微调通常涉及以下步骤:

    • 准备一个专门针对目标任务的高质量标注数据集。
    • 在基础模型的基础上继续训练,调整模型参数以适应目标任务。
    • 这个过程有助于提高模型在特定任务上的性能表现。
  3. 基于人类反馈的强化学习(RLHF,Reinforcement Learning with Human Feedback )

    RLHF是一种结合了人类判断来改进模型行为的方法,尤其适用于那些难以直接通过传统损失函数衡量的任务,比如生成式对话系统。RLHF大致包含三个阶段:

    • 初始策略训练:首先基于一些基本准则或者初步的标注数据训练一个初始模型。

    • 偏好数据收集:让人类评估者对模型生成的不同输出进行评分,以此收集偏好数据。

    • 强化学习:利用收集到的人类偏好作为奖励信号,通过强化学习算法(如PPO)进一步优化模型,使其生成更符合人类期望的结果。

2.4 大模型的核心概念

  1. 参数规模
    • 大模型通常具有数十亿甚至上万亿个参数,远超传统模型。
    • 参数量越大,模型越能捕捉复杂的数据模式。
  2. 预训练与微调
    • 预训练:使用海量无标注数据训练通用模型,学习数据中的基础规律。
    • 微调:在特定任务上用少量标注数据对预训练模型进行调整,以适应具体应用场景。
  3. 多模态能力
    • 现代大模型不仅处理文本,还能处理图像、音频、视频等多种类型的数据,实现跨模态理解和生成。
  4. 泛化能力
    • 大模型通过大规模训练,具备较强的零样本(Zero-shot)、少样本(Few-shot)和迁移学习能力。

2.5 大模型代表模型

通义千问(Qwen)文心一言(ERNIE)DeepSeekChatGPT s

  1. 都是基于 Transformer 架构 的大模型。
  2. 可以被视为基于 AIGC(Artificial Intelligence Generated Content,人工智能生成内容) 的技术或应用。它们的核心功能之一是利用人工智能生成高质量的内容,例如文本、代码、图像等。
模型名称 开发者 基于架构 主要特点
通义千问 阿里巴巴 Transformer 多语言支持、对话理解能力强
文心一言 百度 Transformer 知识增强、中文场景优化
DeepSeek DeepSeek Transformer 开源、轻量化、高性价比
ChatGPT OpenAI Transformer (GPT) 对话流畅、支持多模态任务

3. AIGC

3.1 AIGC 是什么?

AIGC(Artificial Intelligence Generated Content,人工智能生成内容) 是指利用人工智能技术自动生成各种形式的内容,包括文本、图像、音频、视频等。

3.2 AIGC和大模型的关系?

1. 大模型为 AIGC 提供核心能力

  • 强大的生成能力
    • 大模型通常具有海量参数和丰富的训练数据,能够学习到复杂的数据分布和模式。
    • 这种能力使得大模型可以生成高质量的文本、图像、音频、视频等多模态内容。
  • 跨模态理解与生成
    • 现代大模型(如通义千问、Gemini、CLIP 等)不仅擅长单一模态任务,还能实现跨模态的理解与生成。
    • 例如,通过输入一段文本描述,大模型可以生成对应的图像或视频。
  • 零样本和少样本学习
    • 大模型经过大规模预训练后,具备一定的零样本(Zero-shot)和少样本(Few-shot)学习能力。
    • 这使得 AIGC 应用可以在没有大量标注数据的情况下快速适应新任务。
  • 上下文理解和逻辑推理
    • 大模型能够捕捉长距离依赖关系,并进行复杂的上下文理解和逻辑推理。
    • 这为生成连贯且有意义的内容提供了保障。

2. AIGC 是大模型的应用场景

  • 文本生成
    • 基于大模型的文本生成技术被广泛应用于写作助手、聊天机器人、代码生成等领域。
    • 示例:GPT 系列、通义千问等。
  • 图像生成
    • 大模型结合扩散模型(Diffusion Model)或生成对抗网络(GAN),可以生成高质量的图像。
    • 示例:DALL·E、MidJourney、Stable Diffusion 等。
  • 音频生成
    • 大模型可用于生成音乐、语音合成、声音效果等。
    • 示例:Music Transformer、WaveNet 等。
  • 视频生成
    • 结合大模型和时序建模技术,可以生成动态的视频内容。
    • 示例:Make-A-Video、Phenaki 等。
  • 多模态生成
    • 大模型支持多种模态的融合与生成,例如从文本生成图像或视频,或将图像转化为文本描述。
    • 示例:Flamingo、M6 等。

AI相关概念
http://example.com/AI相关概念/
作者
Panyurou
发布于
2025年3月3日
许可协议