AI开发之——大模型相关概念NLP
一 概述
- NLP是什么?
- NLP能做什么?
- NLP 常用技术模块
- NLP 使用的模型
- NLP 框架 & 工具推荐
二 NLP是什么?
1 | NLP 是 Natural Language Processing 的缩写,中文叫做:自然语言处理 |
三 NLP能做什么?
类型 | 示例 |
---|---|
文本理解 | 情感分析、关键词提取、主题分类 |
文本生成 | 自动写作、邮件回复、文案撰写 |
信息抽取 | 实体识别(如“人名、地点”提取)、事件抽取 |
问答系统 | 智能客服、搜索引擎问答 |
机器翻译 | 英文 ↔ 中文,日语 ↔ 韩语等 |
语音转文本 | 语音识别(如 Siri)+ NLP 理解文本 |
摘要提取 | 新闻自动摘要、长文压缩 |
多轮对话 | ChatGPT、智能助理 |
四 NLP 常用技术模块
模块 | 描述 |
---|---|
分词(Tokenization) | 把一句话切分成词/子词 |
词性标注 | 标出每个词的语法角色(名词、动词等) |
命名实体识别(NER) | 提取文本中的人名、公司、地名等 |
句法分析 | 分析句子结构,如主谓宾关系 |
向量表示(Embedding) | 把文字变成计算机能处理的向量 |
文本分类 | 给文本打标签(如“正面评价”、“垃圾邮件”) |
情感分析 | 判断文字是“喜悦”、“愤怒”还是“中性” |
五 NLP 使用的模型
5.1 传统方法
1 | TF-IDF |
5.2 深度学习方法
1 | RNN / LSTM / GRU(处理序列) |
5.3 预训练大模型(LLM)
1 | GPT-4 / ChatGPT |
六 NLP 框架 & 工具推荐
工具 | 简介 |
---|---|
spaCy | 快速实用的工业级 NLP 库(英文好) |
NLTK | 教学经典工具,适合入门 |
Transformers | 使用 BERT、GPT 等大模型 |
jieba | 中文分词工具 |
HanLP | 多语言 NLP(支持中文、日文等) |
LlamaIndex / LangChain | 构建大模型 + 知识库的 RAG 应用 |
七 总结
1 | NLP 是让 AI 能听懂、读懂、写懂人类语言的核心技术,是 ChatGPT、智能客服、翻译软件等背后的关键。 |