财之道 - 分享付费文章

硬核科技,你没看错,如何自己手搓一个ChatGPT

生财有术 ·

硬核科技,你没看错,如何自己手搓一个ChatGPT

(mathfrakA)
闲富2023年05月24日19:39

大家好,我是硬核科技创业这闲富,今天给大家带来一个硬核科技,如何自己手搓一

个ChatGPT3.5。

内容过于硬核,先说结论,目测在未来6个月内,将会出现私有独立部署的chatgpt版本,甚至装在一个U盘类似的硬件当中,即插即用,toB商业场景巨大,所以我们团队决定挑战手搓一

个ChatGPT。

事情起由

这个事情要从2022.02月份说起,当时清华的一个小兄弟,给我介绍了gpt3的模型,聊天对话在此:

当时我们对GPT的能力和商业落地就有了一些探讨。时间过得很快,到了11月份,gpt3.5就快速的引爆了全世界。

我上一边帖子:https://articles.zsxq.com/idm35r2smop4q1.html就在是应运而做的一件事情

前几天这个清华小兄弟又找到我,说准备手搓一个ChatGPT,我猛的一听,觉得不可思议,但是听他介绍下思路:

Facebook开源了LLaMA基础模型,从此产生了很多基于LLaMA微调的模型,Vicuna仅用3周时间,效果达到90%+ChatGPT水平


最近这两天,Facebook发布了新工作,只需要用1000条数据,就可以超过GPT-3.5(DaVinci003)的水平

LIMA:LessIsMoreforAlignment

基础模型具有了足够的潜力,只需要少量高质量数据微调,就能达到目标水平

既然Vicuna使用了ShareGPT的数据,我们可以抓取并进行清洗,筛选所有高质量数据,只要几千条足够

想法很大胆,不过清华就是清华,开搞!

开始行动

为了配合他的训练模型,我继续用ChatGPT套娃,首先要从sharegpt.com这网站上爬一些其他的语料

数据来源:https://sharegpt.com/sitemap.xml

数据来源2:https://huggingface.co/datasets/philschmid/sharegpt-

raw/tree/main/sharegpt90krawdataset好心人在关闭搜索之前,把这个给保存下来了。

套娃开始:

简直太丝滑了,ttgpt3.5对程序员就比较友好了,通过三个小时的工作,这些数据都被整理出来了。提取里边的有用信息格式如下:

来留个钩子:我这边把搞到的数据已经上传到百度网盘,需要的朋友们可以私信获取!

后续有进度会继续同步大家,感兴趣的小伙伴们,可以加入我们,一起共创!

商业场景

在数据隐私保护的时代,私有化部署自己的chatgpt永远是一个永恒的大需求。在前边的case中,对于英文的商业公司来说,这是一个很大的可以出海的需求。当然对于国内这么庞大的需求来说,支持中文的话商业价值更大。我会和清华的小兄弟继续摸索私有化手搓ChatGPT这条路。

共创的朋友可以一起来!

#无标签