ChatGPT- 进阶篇- 训练自己的ChatGPT

admin1年前 (2023-10-31)笔记135

ChatGPT其实是不接受来自互联网的知识的，他的所有内容都是来自于至少3年前各种来源的知识库。但这并不意味着ChatGPT没有能力学习你的回答。

首先ChatGPT一般会根据你和他的问答内容进行一定的上下文参考，其次，由于ChatGPT学习的内容之庞大，你通过一种直白的方式问不到的答案不一定是他不会，有可能是你问的方式不对。

在ChatGPT的官方文档中，他首先鼓励你通过提供多个示例来让ChatGPT更准确的寻找答案，他把这个方案称之为**“few-shot learning.”**

除此之外，当然他也允许你通过微调功能来对ChatGPT进行一定的训练，来获得一个更符合自己要求的ChatGPT，当然，这个功能是收费的。

但Fine-tuning这个功能目前只能应用于GPT3的基础模型，就目前而言，这个功能其实还不如很多市面上的其他大模型，openai并没有给出特别好的自定义方案给大家。但这篇文章还是先聊聊这个。

通过微调ChatGPT训练

准备工作

首先你需要在openai的api基础上操作，所以你需要一个简单的openai环境。

pip install --upgrade openai

当然你需要提前配置openai api key，这个key可以在openai的平台后台获得，这里就不多说了。

export OPENAI_API_KEY="<OPENAI_API_KEY>"

准备训练数据

首先我们需要准备相应的训练数据，这个数据文件都必须是JSONL文件，每行都是一个提示对，类似于

{"prompt": "<prompt text>", "completion": "<ideal generated text>"}{"prompt": "<prompt text>", "completion": "<ideal generated text>"}{"prompt": "<prompt text>", "completion": "<ideal generated text>"}...

一般来说，你提供的训练示例最好有几百个，训练数据会直接影响到最终模型的质量。

你可以用openai提供的工具来验证和处理。

openai tools fine_tunes.prepare_data -f <LOCAL_FILE>

你可以提供CSV, TSV, XLSX, JSON,JSONL格式的训练数据

创建微调模型

在准备好相应的训练数据之后，你可以用opanai的工具来创建微调后的模型。

openai api fine_tunes.create -t <TRAIN_FILE_ID_OR_PATH> -m <BASE_MODEL>

当然，这里指定的基础模型只包含GPT3的部分，包括ada, babbage, curie,davinci

当然由于这个功能并不是在本地完成的，在openai的平台中可能会排在几小时之后。你可以随时中断这个任务。并随时恢复进程。

openai api fine_tunes.follow -i <YOUR_FINE_TUNE_JOB_ID>

在成功训练完成之后，你会获得相应的模型id。你就可以通过对应的模型id来使用它。

当然你也可以随时删除这些模型。

openai api models.delete -i <FINE_TUNED_MODEL>

一些训练范例

我研究了一些相应的训练范例实践，其中还有很多有意思的方案。我挑了一些比较有特点的选出来。

1、否定训练

如果你在和ChatGPT的对话当中，遇到反馈的事实错误，你可以通过否定训练来排除这部分并更正

{"prompt":"testtest", "completion":" yes"}{"prompt":"test", "completion":" no"}

2、情感分析

在ChatGPT的配置中，有个很重要的参数就是情绪值。很显然，ChatGPT的情绪肯定不是空穴来风，这本身是基于数据集训练的结果。

当然，你也可以通过微调来对你数据集标注情绪以此训练

{"prompt":"Overjoyed with the new iPhone! ->", "completion":" positive"}{"prompt":"@lakers disappoint for a third straight night  ->", "completion":" negative"}

你可以通过api来获取prompt对应的情绪判断值。

3、分类

如果你想要ChatGPT帮你完成分类的工作，那最好的方案是提供范例并以数字作为标志.

{"prompt":"test", "completion":" 1"}{"prompt":"1231421", "completion":" 2"}

通过数字标志可以帮助ChatGPT更准确的对目标做分类。

4、样本处理与提取

如果你需要用ChatGPT来完成样本提取工作，你可以用一些简单的多行范例来举证。

{"prompt":"Portugal will be removed from the UK's green travel list from Tuesday, amid rising coronavirus cases and concern over a \"Nepal mutation of the so-called Indian variant\". It will join the amber list, meaning holidaymakers should not visit and returnees must isolate for 10 days...\n\n###\n\n", "completion":" Portugal\nUK\nNepal mutation\nIndian variant END"}

理论上来说，你可以提供大量的样本标准文本的提取方案。

5、聊天机器人

如果你需要完成一个聊天机器人的功能，最好的办法是给ChatGPT提供问题以及大量回答样本，这样可以让ChatGPT学习他应该回答的内容。

{"prompt":"Summary: <summary of the interaction so far>\n\nSpecific information:<for example order details in natural language>\n\n###\n\nCustomer: <message1>\nAgent: <response1>\nCustomer: <message2>\nAgent:", "completion":" <response2>\n"}{"prompt":"Summary: <summary of the interaction so far>\n\nSpecific information:<for example order details in natural language>\n\n###\n\nCustomer: <message1>\nAgent: <response1>\nCustomer: <message2>\nAgent: <response2>\nCustomer: <message3>\nAgent:", "completion":" <response3>\n"}

你可以像这个范例中讲的一样，按照问题回答场景来划分提示词。

一个小小的实例

接下来跟着前面的每一步来训练一个自己的ChatGPT，首先我们需要准备一份数据集。这里我选择用我的博客内容来做初步的内容训练。

用一个简单的python3脚本来处理所有的md文件并生成对应的jsonL文件。

这个prompt的范例比较粗暴，不是很靠谱的，只是测试一下。

import osimport globimport reimport jsonimport codecs

folder_path = 'posts' # 指定文件夹路径
output_file = 'output.jsonl' # 指定输出文件名

md_files = glob.glob(os.path.join(folder_path, '*.md')) # 获取所有的md文件路径with codecs.open(output_file, 'w', encoding='utf-8') as f:
    for file in md_files:
        with codecs.open(file, 'r', encoding='utf-8', errors='ignore') as md:
            text = md.read()
            match = re.search(r'title: (.+)\n', text) # 匹配标题和内容
            text = re.sub(r"```.*?```", "", text, flags=re.DOTALL)
            if match:
                i = 0
                max_length = 2000

                while len(text) > i*2000:
                    t = text[i*max_length:i*max_length+max_length]

                    prompt = match.group(1) + ' Part {}'.format(i+1)
                    completion = ' ' + t + 'END'
                

                    data = {"prompt": prompt, "completion": completion}
                    json_data = json.dumps(data) + '\n' # 将字典格式化为JSONL格式
                    f.write(json_data)

                    i += 1

然后我们用openai来处理一下这部分数据集

他会给你一些修改意见和处理方案，并且会自动处理一下你的数据集。

然后我们在基础的4个GPT-3模型中选取一个作为基础模型，其中**davinci这个模型要相对来说更强大，也更适合进一步培养。但要注意的是，davinci相比之下贵10倍还多**。

openai api fine_tunes.create -t .\output_prepared.jsonl -m davinci

要注意这一步是要访问国外网站的，不然无法上传文件。

等待微调的任务处理完成。如果不小心中断，可以用follow继续

openai api fine_tunes.follow -i ft-PcXP6lbEZKDHo3ez8986RWmZ

之后就是等待结果即可，我自己研究了一下发现这个东西有点儿贵的我训练集数据也就400多条，还用了比较便宜的curie模型，结果还花了10刀。

训练完成之后你就可以使用这个模型来交互。但我研究了一下，这个微调后的Chatgpt只能用Complete功能，你可以使用api或者platform来调用这个模型。

但还是那句话，这个方案问题相当之大，一个是GPT3在现在的大模型中是比较菜的，先不说GPT4，连3.5什么时候上线这个功能还遥遥无期，另一方面就现在的内容而言，训练的结果和价格其实不太成正比，一方面微调这个功能很依赖训练的数据有效度，你简单的拿一大堆数据来搞不但很贵还效果不好，你精心准备各种提示词和内容又违背了本身依靠ai来做总结归纳的初心，所以现在市面上更多的基于chatgpt的第三方工具，都是用了一些其他的方案。