萍聚社区-德国热线-德国实用信息网

 找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 206|回复: 0

AI时代生存指南:90%的人在向AI投喂资料时都犯了个致命的错误!

[复制链接]
发表于 2025-3-8 19:54 | 显示全部楼层 |阅读模式
作者:微信文章


前面介绍了DeepSeek的本地部署、个人知识库使用、智能体的建立等内容。这就像有了一本武功秘籍,对着练就可以轻松入门。

接下来就是最关键、最考验耐心的部分——苦练内功,逐步丰富自己的知识库。

今天我们来聊一个准备资料时非常关键,但90%的人都会犯的错误——把Word、pdf等所有文件一股脑直接上传到资料库。

我们以为每次输入问题时,AI都会从头到尾读一遍我们的所有文档,然后给出回答。

这是不对的!!!

我们每次上传资料后,AI会对文档进行预处理,将个人资料库中的长文本按语义或逻辑分割成多个片段(如段落、章节),然后通过嵌入模型(比如中文资料常用的BAAI/bge-m3等)生成向量表示。每个片段包含1024~8192个tokens(可以近似理解为词)。

AI回答问题时,其实并不会从头读我们的文档,而是根据权重来检索向量数据库,给出答案。

这里的核心就是如何提高文档的质量,让AI更好的理解我们的文档,或者说,如何让我们的生存数字化,像AI一样思考。
文档格式选择

建立个人知识库为AI大模型提供训练或检索增强生成(RAG)支持时,数据准备是关键的基础步骤。AI对不同类型的文档的理解力是不同的,比如:



可以看到,PDF和Word等的语义保留度很低。最优的方案是采用Markdown等,兼顾可读性与机器可解析性。
什么是Markdown语言

Markdown 是一种轻量级标记语言,用于格式化纯文本。它以简单、直观的语法而著称,可以快速地生成 HTML。Markdown 是写作与代码的完美结合,既简单又强大。

Markdown的基础语法很简单,我们花10分钟就能掌握精髓。下面是关键的几点:
1. 标题:让你的内容层次分明

用 # 号来创建标题。标题从 # 开始,# 的数量表示标题的级别。
# 一级标题

## 二级标题

### 三级标题

#### 四级标题
以上代码将渲染出一组层次分明的标题,使你的内容井井有条。
2. 段落与换行:自然流畅

Markdown 中的段落就是一行接一行的文本。要创建新段落,只需在两行文本之间空一行。
3. 字体样式:强调你的文字

    粗体:用两个星号或下划线包裹文字,如 **粗体** 或 __粗体__。斜体:用一个星号或下划线包裹文字,如 *斜体* 或 _斜体_。删除线:用两个波浪线包裹文字,如 ~~删除线~~。

这些简单的标记可以让你的内容更有层次感和重点突出。
4. 列表:整洁有序

    无序列表:用 -、* 或 + 加空格开始一行。有序列表:使用数字加点号(1.、2.)开始一行。

在列表中嵌套其他内容?只需缩进即可实现嵌套效果。
5. 链接与图片:丰富内容

    链接:用方括号和圆括号创建链接 [显示文本](链接地址)。图片:和链接类似,只需在前面加上 !,如 ![描述文本](图片链接)。
让Word文档支持Markdown

我们看一下Word文档格式转换对照表,核心就是要尽可能使用多级标题、列表等结构化的元素:

Word元素

Markdown等效方案

标题1-6

# 至 ######

项目符号列表

- 或 *

编号列表

1. 自动编号

表格

管道符表格





我们可以安装一个插件,将Word文档另存为Markdown (*.MD)格式,来检查里面的信息是否都有Markdown标签了:


让微信公众号支持Markdown

微信公众号的原生编辑器是不支持Markdown (*.MD)格式的。我们可以用外部的编辑器来实现这个目的,或至少是标出标题、列表等元素。
也可以使用这个在线开源的WeChat Markdown Editor: https://doocs.github.io/md/
编辑完成后拷贝或输出html,再贴到微信公众号编辑界面即可,非常简单方便。


结语

我们准备个人资料库时,要优先选择结构化高解析性的文档类型。当使用Word时,建议使用系统标题、项目列表等方式让文档尽可能结构化。当发表微信公众号文章时,可以使用支持Markdown的编辑器,提供文档的AI友好度。

简而言之,将我们的生存数字化。
推荐阅读

    • 电脑小白零基础安装自己的DeepSeek,告别服务器繁忙困扰• 当DeepSeek回答段誉最爱的人是王玉燕时,我喜出望外!• 吐血推荐最新DeepSeek API撸羊毛大全• 我渐渐沉迷于和自己聊天而无法自拔——用腾讯元器和字节扣子创建数字分身

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

手机版|Archiver|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-3-10 22:18 , Processed in 0.059162 second(s), 17 queries , MemCached On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表