硬核科技，你没看错，如何自己手搓一个ChatGPT

生财有术 · 2024-12-05

(mathfrakA)
闲富2023年05月24日19:39

大家好，我是硬核科技创业这闲富，今天给大家带来一个硬核科技，如何自己手搓一

个ChatGPT3.5。

内容过于硬核，先说结论，目测在未来6个月内，将会出现私有独立部署的chatgpt版本，甚至装在一个U盘类似的硬件当中，即插即用，toB商业场景巨大，所以我们团队决定挑战手搓一

个ChatGPT。

这个事情要从2022.02月份说起，当时清华的一个小兄弟，给我介绍了gpt3的模型，聊天对话在此：

当时我们对GPT的能力和商业落地就有了一些探讨。时间过得很快，到了11月份，gpt3.5就快速的引爆了全世界。

我上一边帖子：https://articles.zsxq.com/idm35r2smop4q1.html就在是应运而做的一件事情

前几天这个清华小兄弟又找到我，说准备手搓一个ChatGPT，我猛的一听，觉得不可思议，但是听他介绍下思路：

Facebook开源了LLaMA基础模型，从此产生了很多基于LLaMA微调的模型，Vicuna仅用3周时间，效果达到90%+ChatGPT水平

最近这两天，Facebook发布了新工作，只需要用1000条数据，就可以超过GPT-3.5(DaVinci003)的水平

LIMA:LessIsMoreforAlignment

基础模型具有了足够的潜力，只需要少量高质量数据微调，就能达到目标水平

既然Vicuna使用了ShareGPT的数据，我们可以抓取并进行清洗，筛选所有高质量数据，只要几千条足够

想法很大胆，不过清华就是清华，开搞！

为了配合他的训练模型，我继续用ChatGPT套娃，首先要从sharegpt.com这网站上爬一些其他的语料

数据来源：https://sharegpt.com/sitemap.xml

数据来源2：https://huggingface.co/datasets/philschmid/sharegpt-

raw/tree/main/sharegpt90krawdataset好心人在关闭搜索之前，把这个给保存下来了。

套娃开始：

简直太丝滑了，ttgpt3.5对程序员就比较友好了，通过三个小时的工作，这些数据都被整理出来了。提取里边的有用信息格式如下：

来留个钩子：我这边把搞到的数据已经上传到百度网盘，需要的朋友们可以私信获取！

后续有进度会继续同步大家，感兴趣的小伙伴们，可以加入我们，一起共创！

在数据隐私保护的时代，私有化部署自己的chatgpt永远是一个永恒的大需求。在前边的case中，对于英文的商业公司来说，这是一个很大的可以出海的需求。当然对于国内这么庞大的需求来说，支持中文的话商业价值更大。我会和清华的小兄弟继续摸索私有化手搓ChatGPT这条路。

共创的朋友可以一起来！

#无标签