AI开发之——大模型相关概念LLM
一 概述
- LLM是什么?
- LLM能做什么?
- LLM是怎么训练出来的?
- 目前常见的LLM有哪些?
- AI开发中LLM的用法
二 LLM是什么?
1 | 在 AI(人工智能)开发中,LLM 是 Large Language Model(大语言模型)的缩写 |
三 LLM能做什么?
LLM 被广泛用于以下任务:
应用方向 | 示例 |
---|---|
自然语言生成(NLG) | 写作助手、摘要生成、对话系统 |
自然语言理解(NLU) | 情感分析、意图识别 |
文本翻译 | 英语 <-> 中文 <-> 日语等多语种翻译 |
文本问答 | ChatBot、知识库问答 |
代码生成 | 编程助手(如 GitHub Copilot) |
语言推理 | chain-of-thought reasoning、数学题 |
四 LLM是怎么训练出来的?
4.1 预训练(Pretraining)
1 | 用数TB级别的文本(书籍、网页、维基百科等)训练语言模型。 |
4.2 微调(Fine-tuning)
1 | 在特定任务(如问答、客服、法律文本)上继续训练,让模型更专业 |
4.3 指令微调(Instruction tuning) 和 RLHF(人类反馈强化学习)
1 | 让模型更好地理解人类指令、说话方式 |
五 目前常见的LLM有哪些?
模型名称 | 公司/组织 | 特点 |
---|---|---|
GPT-3/GPT-4 | OpenAI | ChatGPT 背后的模型 |
Claude | Anthropic | 强调安全性与长上下文 |
Gemini | Google DeepMind | 原名 Bard,支持图文 |
LLaMA | Meta | 开源大模型代表之一 |
Mistral / Mixtral | Mistral AI | 小模型高性能,适合本地部署 |
Yi / ChatGLM | 中国企业 | 中文适配更好,国产自主模型 |
六 AI开发中LLM的用法
6.1 API 调用(如 OpenAI API)——Python语言
1 | from openai import OpenAI |
6.2 本地部署开源 LLM(如 LLaMA、Mistral、Qwen)
1 | 使用 Ollama、LMDeploy、Transformers 等工具 |
6.3 与工具链结合
1 | LangChain / LlamaIndex:用于构建 RAG 问答系统 |