ChatGPT 投喂指南

作品简介

我想要让 ChatGPT 做这些事：

给它一份 PDF，让它分析摘要、提炼内容；
让它去看某个网页，帮我查询最新的信息；
给它一份数据表格，让它分析出数据的变化；
给它一份文本，让它总结、模仿出相似的风格；
给它一个聊天记录，让它把你的好友进行分类和打标签；
给它一本书，让它快速读完，并且告诉我书里都讲了什么....

是不是觉得，哇，原来 ChatGPT 还能做这些？

为什么自己在使用 ChatGPT 时没发现这些功能？

这些动作，都离不开一个动作：投喂。

相信你在 ChatGPT 的使用中，也遇到过相似的问题。

这阻碍了你很多自媒体创作进程，如何解决上面的问题呢？我们今天来谈谈投喂。

今天的分享将主要分为：

一、为什么要喂资料给它？

二、都能喂给它哪些格式的资料？

三、它吃掉资料后，是怎么进行工作的

四、投喂的方式和方法

五、如何输出想要的结果/提问和设定

一、为什么要为资料给它？

我们知道，ChatGPT 本身的公开数据库更新到 21 年 9 月，4.0 版本最近也支持了联网插件。

但是，我们想要使用 ChatGPT 分析的数据/文本往往存在两种状况：

1、这是私人数据，未被公开，ChatGPT 没有

2、这是联网公开内容，但是未被 ChatGPT 收录

也就是说，并非我们询问的问题资料都在 ChatGPT 的数据库中，因此我们需要教它。

家里来了一个机器人，还不会使用洗碗机。

你把洗碗机的使用手册投喂给他，它就能迅速掌握这些知识。

不但可以立刻帮你洗碗，还能针对洗碗机的原理、构造和你侃侃而谈。

为了让 ChatGPT 更能明白我们的指令，我们有必要进行知识投喂。

甚至我们畅想，未来我们每个人脖子上也有一个接口，可以接受这样的知识投喂。

数据传输后，我们迅速掌握了这些知识，再也不用死记硬背。

二、都能喂给它哪些格式的资料？

1、投喂这些资料都支持什么格式？

原则上：各种电子书或者文档都可以，pdf、excel、ppt、word...统统没问题。

也就是说：只要是文本，都 ok。

比如：图像、图片形式的内容，我们也可以通过 ocr 转换成文本，投喂进去。

比如：短视频的内容，你可以通过飞书妙记把视频转为文字，投喂进去。

比如：公众号、网页里的内容，只要是文本，也可以直接复制投喂进去。

2、投喂有没有限制？

文件的大小：

理论上文件大小没有限制。

难点不在大小，而在于如何对长文档进行处理，切分。

比如你喂了 1M 的文件，它很快可以处理完并协同你工作。

你喂了 30M 的文本，半天过后它仍然在分析文档……

ChatGPT 网页版对话的长度：

受限于 OpenAI 接口对 token 数量的限制，最常用、也最廉价的 ChatGPT 3.5 的 token 限制是 4096 tokens，可以简单粗暴的认为是 2000 字。

超过了会怎样？网页会直接提示红字超过token限制，需要把字数控制在2000字以内。

三、它吃掉资料后，是怎么进行工作的

注意：这个部分涉及原理，非开发人员请远离。

【普通用户可以出去溜达一会儿，到第四个章节你们再回来】

在 ChatGPT 界面中，我们可以尝试使用如下的方式进行数据的投喂

我们通过在对话中提供更多的信息，来实现最简单的数据投喂

如果是更多的内容则很难、无法在对话框中进行投喂。此时我们需要别的方式来进行处理：

finetuning是捏了个小人，会自主回答。

embedding就是做了个说明书，只回答说明书里边有的，没有回答不了。

一个非常发散，一个则更加收敛。

这种方式是在 OpenAI 训练的模型之上，使用自己的小数据集来进行微调。这种方式会让模型在特定的领域（取决于数据集）成为专家。但是训练的效果需要不断的去检验，而且检验的数据集也必须覆盖面很大。

例如使用这种方式训练出来的：

提问：我们家的到家月嫂和别人家的月嫂有什么不一样？

它回答：

到家月嫂是一个纯洁的工作

你会觉得？？？嗯？什么意思？它说这话是什么意思？怎么还能联想到那里！

这就是典型的发散型回答。

Embedding

Embedding 是对文本进行向量化处理，从而对两端文本可以进行向量比较，获取两端文本的相似性。

通过这种方式，就可以把长文本切分成小块（Chunk），通过对用户问题的命中来选取相应的内容，然后交给 ChatGPT 进行后续处理。

如，汉堡的向量和三明治的向量相似性，就要大于和桌子的向量相似性。

如一段文本是，“我家快递用顺丰”，这句话就和“你家物流用什么”这个问题具有强相似性。

所以这种方式也往往用于在线客服的开发。

一般工具的处理方式（粗）

大量的工具如 ChatPDF，都是使用 embedding 的方式进行处理，处理的流程为

1.用户输入长文本，工具对长文本按照策略切分成为文本块

2.对每一个文本块进行向量计算（Embedding）并存储到向量数据

3.用户提问进行向量计算

4.从向量数据看寻找和用户提问相似度最高的内容

5.整合命中的内容，连同用户的问题，调用 OpenAI Chat 接口进行处理

6.返回用户回答

好了，枯燥的原理部分我们说完了。乡亲们可以回来了！

四、投喂的方式和方法

创作时间：

一、为什么要为资料给它？​

​二、都能喂给它哪些格式的资料？​

1、投喂这些资料都支持什么格式？​

​2、投喂有没有限制？​

​三、它吃掉资料后，是怎么进行工作的​

​Embedding​

四、投喂的方式和方法

一、为什么要为资料给它？

二、都能喂给它哪些格式的资料？

1、投喂这些资料都支持什么格式？

2、投喂有没有限制？

三、它吃掉资料后，是怎么进行工作的

Embedding