• AI入门课

    第01章_AI快速入门

    第一节 基础概念

    1. AI简介

    1) 什么是AI?

    人工智能(AI)是通过计算机模拟人类智能(感知、推理、学习、决策),实现自主响应、问题解决的技术,核心是让机器“学会思考”,而非单纯执行指令。

     

    2) AI的发展简史

     

    3) AI的发展现状

     

     

    2. 相关名词

    1) 大模型/Token
    模型名称开发方核心亮点适用场景
    GPT-5.2 UltraOpenAI全能标杆,全模态,上下文 400K,推理 / 编程顶尖复杂决策、科研、高要求代码
    Claude Opus 4.6Anthropic旗舰级,100 万 token 上下文(beta),长推理 / 编码极强,安全稳定超长篇文档、深度研究、企业级编码
    Claude Sonnet 4.6Anthropic中杯旗舰,性能接近 Opus、价格更低,百万 token 上下文(beta),代码 / 长文优秀日常专业场景、文档精读、代码开发、性价比首选
    Gemini 3.1 ProGoogle原生多模态(视频 / 3D),超长上下文,性价比高视频处理、工业设计、海量文档
    Llama 4Meta开源标杆,隐私强,社区成熟私有化部署、企业二次开发
    通义千问 Qwen3.5阿里云中文顶尖,多模态广,开源商用友好多语言、音视频、企业应用
    GLM-5智谱 AI推理效率高,多语言生态成熟通用对话、内容创作、垂直落地
    文心一言 5.0百度中文语义精准,产业应用成熟政务 / 教育 / 金融私有化、工具调用
    豆包 5.0字节跳动日常体验佳,生态融合紧密个人助理、内容创作、短视频辅助
    Kimi K2.5月之暗面长文本处理突出,国产长文能力领先文献综述、长报告、大数据分析

     

    2) Agent/Claw/Swarm

     

    3) MCP/Skill/Plugin

     

    4) FunctionCall/Embedding/RAG

     

    5) 其它补充

     

     

    3. 模型交互

    1) Prompt Engine

    提示词(Prompt)就是你发给 AI 的指令、问题、要求,用来告诉 AI 你想让它做什么、怎么做,分为:

    提示词优化的核心原则是:明确需求限定范围提供示例指定格式等,一般格式为:背景 + 指令 + 要求,优化技巧如下:

    注意:

    1. DeepSeek给出的提示词样例:https://api-docs.deepseek.com/zh-cn/prompt-library/

     

    2) Context Engine

    上下文(Context) 是模型交互中的记忆载体,决定了 AI 能否理解多轮对话的历史脉络与背景信息,是保持对话连贯性的核心机制。

    上下文管理的核心原则是:控制长度保留关键及时压缩,常用策略如下:

    注意:

    1. 上下文越长,推理延迟和 Token 消耗越高,需在连贯性成本之间权衡。

     

    3) Harness Engine

    Harness(模型编排引擎) 是连接应用层与底层模型的中间层,负责对多模型、多厂商的 API 进行统一封装、调度与治理,让上层业务代码以一致的方式调用不同的 AI 能力。

    工程化配置通常包含:

    注意:

    1. Harness 层不处理业务逻辑,只负责模型调用的可靠性与一致性,应与业务层解耦。

     

     

    4. 向量化

     

     

     

    第二节 理论基础

    1. 理论基础01

    1) 什么是深度学习?

    深度学习是AI核心理论,基于神经网络(模拟人脑结构),通过多层网络实现特征提取、模式识别,是大模型的基础;

     

    2) 深度学习与机器学习的区别?

    数据依赖、特征提取方式等。

     

    3) 神经网络结构

     

    4) 学习方式有哪些?

     

    5) 什么是过拟合和欠拟合?

     

    6) 什么是注意力机制?

    注意力机制是 Transformer 核心,让模型关注输入数据的关键部分(如文本中的重点词汇),提升处理效率和准确性;

     

     

    第三节 大模型

    1. 大模型部署

    1) 基于Ollma部署大模型

    Ollama 是一款极简的本地大模型运行工具,只需简单命令即可在电脑上一键部署、离线运行各类开源 AI 大模型。

     

    2) 基于vLLM部署大模型

    vLLM(Virtual Large Language Model)是伯克利大学开源的工业级高性能大语言模型(LLM)推理与服务引擎,以PagedAttention分页注意力技术为核心,极致优化显存与并发,是当前生产环境部署大模型的主流首选。

     

     

    2. 大模型微调

     

     

    3. 大模型训练

     

     

     

    第02章_AI工具使用

    第一节 Claude Code

    1. 安装部署

    1) 什么是Claude Code?

    Claude Code 是一款智能编码工具,能够读取你的代码库、编辑文件、执行命令,并与你的开发工具集成。

    官方文档:https://code.claude.com/docs/en/overview

    笔记参考:https://cloud.fynote.com/share/d/HnIGGVKAMH

     

    2) 命令行安装

     

    3) 插件安装

    在各大插件市场搜索安装即可,推荐一个 CC GUI 插件如下,可手工加载C:\Users\用户名\.claude\settings.json配置。

    image-20260330153345127

     

     

    2. 基本使用

    1) 基本命令

     

    2) 会话管理

     

    3) 文件 / 项目操作

     

    3) 高级扩展

    注意:

    1. skills会继承主Agent上下文,而SubAgent不会影响当前上下文,适合关联小,影响大的任务。

     

    4) Skill示例

    下面是一个文件整理技能,在技能目录~/.claude/skills/技能名称/SKILLS.MD创建SKILLS.MD文件,写入下面内容即可。

     

     

    3. 其它AI编程工具

    1) Cursor

    Cursor 是由 Anysphere 公司开发、基于 VS Code 深度定制的 AI 原生代码编辑器,核心定位是 “AI 结对编程伙伴”。

    它集成了 GPT-4、Claude、Gemini 等大模型,支持自然语言编程、项目级代码理解、跨文件智能重构、一键 Debug 与优化,并具备 Agent 自主执行、Yolo 快速编辑等高级模式,能直接通过对话生成、修改、解读与维护代码。

    官网地址:https://cursor.com/cn

     

    2) Trce

    Trae(读作 /treɪ/) IDE是由字节跳动推出的一款 AI 原生集成开发环境的IDE,集成了智能问答、实时代码建议、代码片段生成及基于智能体的自动编程能力,并针对中文开发者进行了深度优化,例如全界面中文支持和语义理解优化。

    官网地址:https://www.trae.cn/

    笔记参考:https://cloud.fynote.com/share/d/iISJVVge

     

    3) Open Code

     

    4) Codex

     

    5) Qorder

     

     

    第二节 OpenClaw

    1. 安装部署

    1) 什么是OpenClaw?

    OpenClaw 是一款开源 AI 智能体,可部署在本地电脑,通过 Telegram、微信等聊天软件操控,让 AI 不仅能对话建议,更能主动执行代码、管理文件、操作浏览器等实际任务,成为真正"能动手"的私人数字助理。

    官网地址:https://openclaw.ai/

    官方文档:https://docs.openclaw.ai/zh-CN

    笔记参考:https://cloud.fynote.com/share/d/ZAHaTUrAC

     

    2) Windows安装

     

    3) Linux安装

     

    2. 基本使用

    1) 常用命令

     

    2) 修改大模型

     

    3) 配置渠道

     

    4) 添加SKILL

     

     

    第三节 DALL.E3

     

     

     

    第四节 Midjourney

     

     

    第五节 Dify

    Dify:面向企业级用户的开源 AI 平台,支持主流大模型(如 GPT‑4、Claude)、灵活创建聊天机器人、文本应用和复杂工作流,允许私有化部署、更好地保障数据隐私和合规性。

    Coze:针对个人或小型团队构建对话式 AI 应用的低/无代码平台,支持国内模型、一键页面布局、丰富插件嵌入、云端托管(依赖火山引擎),适合快速验证智能体/聊天机器人产品。

    mauns:全自主、多代理驱动的智能体平台,擅长接收高层指令后自动拆解任务、调用多模型及 API(浏览网页、写代码、生成报告/部署网站等),适合跨域、多步骤、复杂任务的专业用户或团队使用。

     

     

    第六节 milvus

    1. 安装部署

    1) 什么是milvus?

    Milvus 是一个由 Zilliz 开发的高性能向量数据库,专为存储、索引和检索高维向量数据而设计,它能够处理图像、音频、视频、自然语言等嵌入表示(embeddings),支持海量向量(万亿级)毫秒级相似搜索,现已成为世界领先的开源向量数据库项目之一。

     

    2) 安装milvus

    image-20260410081442469

     

     

    2. 基本使用

    1) 导入依赖

     

    2) 创建Collection和Schema

     

    3) 数据增删查

     

    3. 其它向量数据库

    1) Redis Stack

     

     

    第03章_AI应用开发(Java)

    第一节 SpringAI

    1. SpringAI简介

    1) 什么是Spring AI?

    SpringAI是一个AI工程领域的应用程序框架,对OpenAI、DeepSeek等主流 AI 大模型提供了支持。

     

     

    2. 接入DeepSeek

    1) 引入依赖

     

    2) 创建配置文件

     

    3) 编写Controller

     

    4) 创建启动类

     

    5) 测试

    image-20250628170050905

     

     

    3. 接入阿里百炼平台

    1) 引入依赖

     

    2) 修改配置

     

    3) 编写Controller

     

    4. 接入Ollma本地模型

    1) 部署本地模型

    注意:

    1. Ollma本地模型默认安装在C盘,可通过OLLAMA_MODELS环境变量进行修改。

     

    2) 引入依赖

     

    3) 修改配置

     

    4) 编写Controller

     

     

    5. ChatClient工具

    1) 什么是ChatClient?

    ChatModel是 Spring AI 与 AI 模型交互的基础接口,直接和具体的 AI 模型(如OpenAI、DeepSeek、通义千问等)进行交互。

    ChatClient是对 ChatModel 的进一步封装,它屏蔽了底层模型的差异性,为开发者提供了统一的接口来和不同的 AI 模型进行交互。

     

    2) 配置ChatClient

     

    3) 使用ChatClient

     

     

    6. 检索增强生成(RAG)

    1) 什么是RAG?

    RAG(Retrieval-Augmented Generation )指检索增强生成式人工智能,是一种将大型语言模型(LLM)与外部知识源相结合的人工智能技术。通过在生成响应前检索相关信息,RAG 能够为模型提供最新且特定领域的知识,从而提高回答的准确性和相关性。

     

    2) 对数据进行向量化

    步骤:文档 → 解析 → chunks → Embedding → 向量 → 存入向量库,最终结果形成知识库,整个过程叫 indexing

     

    3) 增强生成内容

    一个 RAG 系统的数据流程如下:

    image-20260410083528178

    代码请参考前一小节示例。

     

     

    第二节 Spring AI Alibaba

    1. Spring AI Alibaba 简介

    1) 什么是Spring AI Alibaba?

    Spring AI Alibaba 是阿里云基于官方 Spring AI 构建、专为 Java 开发者设计的开源企业级 AI 应用AI Agent 开发框架。

    项目架构分为三层:

    Architecture

     

    2) 主流 Java AI 框架选型

    以下是当前主流 Java AI 框架对比情况:

    对比维度Spring AI AlibabaSpring AILangChain4J
    Spring Boot 集成原生支持原生支持社区适配
    文本模型主流模型,可扩展主流模型,可扩展主流模型,可扩展
    音视频、多模态、向量模型支持支持支持
    RAG模块化 RAG模块化 RAG模块化 RAG
    向量数据库主流向量数据库 阿里云ADB、OpenSearch等主流向量数据库主流向量数据库
    MCP 支持支持 Nacos MCP Registry 支持支持支持
    函数调用支持(20+官方工具集成)支持支持
    提示词模版硬编码,无声明式注解硬编码,无声明式注解声明式注解
    提示词管理Nacos 配置中心
    Chat Memory优化版JDBC、Redis、ElasticSearchJDBC、Neo4j、Cassandra多种实现适配
    可观测性支持,可接入阿里云ARMS支持部分支持
    工作流 Workflow支持,兼容 Dify、百炼 DSL
    多智能体 Multi-agent支持,官方通用智能体实现
    模型评测支持支持支持
    社区活跃度与文档健全性官方社区,活跃度高官方社区,活跃度高个人发起社区
    开发提效组件丰富,包括调试、代码生成工具等
    Example 仓库丰富,活跃度高较少丰富,活跃度高

    Spring AI Alibaba不仅可以通过 Nacos 配置中心管理提示词,还在可观测性、工作流、多智能体方面做的更好。

     

     

    2. 入门案例

    1) 导入依赖

    父工程:

    子工程:

     

    2) Agent示例

     

     

     

     

     

     

     

    第三节 LangChain4J

    1. 基本使用

    1) 导入依赖

     

    2) 接入对话模型

     

    3) 接入图片/语音模型

     

    4) 实现智能体(AI Agent)

     

    5) 调用MCP服务

     

     

    2. 整合SpringBoot

    1) 引入依赖

     

    2) 模型配置

     

    3) 创建代理

     

    4) 流式对话

     

     

    第04章_AI应用开发(Python)

    第一节 Python 基础语法

    1. 数据类型

     

     

    2. 控制流

     

     

    3. 函数

     

     

    4. 面向对象

     

     

    5. 模块与异常处理

     

     

    第二节 LangGraph 必备高级特性

    1. 类型提示

    LangChain / LangGraph 大量使用类型提示,必须掌握。

    TypedDict(LangGraph State 定义核心)

    Annotated(LangGraph 字段合并策略)

     

     

    2. 装饰器进阶

    LangChain 的 @tool 就是用装饰器实现的。

     

     

    3. 生成器与流式输出

     

     

    4. 异步编程(async/await)

    LangGraph 默认使用异步执行,必须掌握。

     

     

    5. Pydantic 数据校验

    LangChain 的工具参数校验、配置管理都基于 Pydantic。

     

     

    第三节 大模型应用开发

    1. OpenAI SDK 调用

     

     

    2. LangChain LCEL(现代管道模式)

    LCEL(LangChain Expression Language) 是 LangChain 的核心编程序范式,用 | 管道符串联组件。

     

     

    3. RAG 检索增强生成

     

     

    4. Tool Calling(工具调用)

     

     

    第四节 LangGraph 多 Agent 编排

    LangGraph 是构建有状态、多角色 Agent 的框架,核心是 StateGraph

     

    1. 核心三要素

     

     

    2. StateGraph 构建

     

     

    3. 条件边(多分支路由)

     

     

    4. ReAct Agent(推理 + 行动循环)

     

     

    5. 多 Agent 协作(Supervisor 模式)

     

     

    6. Human-in-the-Loop(人工审核断点)

     

     

    7. 状态持久化(Checkpointing)

     

     

    第五节 Milvus 向量数据库

    1. 基本概念

    Milvus 是云原生向量数据库,专为十亿级向量相似度搜索设计,是 RAG 应用的核心基础设施。

    对比 FAISS / Chroma:FAISS 是内存库(进程挂了数据丢),Milvus 支持持久化和集群。

     

     

    2. Schema 与 Collection

     

     

    3. 向量搜索

     

     

    4. 混合搜索(标量过滤)

     

     

    5. LangChain 集成

     

     

    第六节 MCP 协议与工具封装

    1. MCP 协议核心价值

    MCP(Model Context Protocol)是标准化的 Agent 工具协议,核心优势:

    1. 标准化工具描述:统一的 JSON Schema 格式,LLM 不需要为每个工具适配不同格式
    2. 动态工具发现tools/list 让 Agent 动态感知可用工具,无需硬编码
    3. 双向通信:支持 resources(数据资源)和 prompts,不只是工具调用
    4. 传输层抽象:STDIO(进程间)和 HTTP+SSE(远程),同一套工具可本地/远程部署

    vs Function Calling:Function Calling 只有单向调用,无资源订阅和动态发现。MCP = Function Calling 的超集 + 标准化协议层

     

     

    2. MCP Server 实现

     

     

    3. LangGraph 集成 MCP 工具

     

     

    4. MCP 工具注册中心

    替代零散硬编码MultiServerMCPClient配置,中心化统一管理所有 MCP 服务配置、健康、限流、热更。

     

     

    第七节 RAG 优化实战

    1. 语义分块(Semantic Chunking)

    传统固定大小的分块会割裂语义。语义分块根据内容相似度决定切分时机:

     

     

    2. 混合检索(Hybrid Search)

    Dense(BGE-M3 语义)+ Sparse(BM25 关键词)+ RRF 融合 + Reranker 重排序

     

     

    3. 召回率评估

     

     

    第八节 Agent 评估与可观测性

    1. 关键指标体系

    指标类型指标目标值
    性能首 Token 延迟< 2s
    性能端到端响应时间< 10s
    质量Top-K 召回率> 90%
    质量回答准确率(用户反馈)> 85%
    稳定性幻觉率< 3%
    稳定性LLM 调用成功率> 99.5%
    成本日均 Token 消耗监控异常增长

     

     

    2. Langfuse 集成(LLM 调用追踪)

     

     

    3. 幻觉检测与降低策略

    降低幻觉的 5 个策略:

    1. RAG 增强:知识型回答必须先检索,强制引用来源
    2. 工具锁定:查询类问题不走纯生成,必须走工具调用 → 用工具返回数据回答
    3. System Prompt:"如果你不知道,就说不知道,不要编造"
    4. Few-shot 示例:教模型如何说"我不确定"
    5. 人工兜底:事务类操作经人工审批

     

     

    4. 监控 Dashboard(自定义埋点)

     

     

    第九节 容错与降级策略

    1. Tool Calling 多层容错

     

     

    2. Agent 层降级

     

     

    3. System Prompt 工具状态注入

     

     

    第十节 风控智能助手项目实战

    1. 项目架构

     

     

    2. Agent Graph 设计

     

     

    3. FastAPI 服务层

     

     

    4. 配置管理

     

     

    5. 项目目录结构

     

     

    第十一节 企业级工程实践

    1. LLM 调用安全处理

     

     

    2. 日志系统

     

     

    3. 测试策略