因为大多数当前可用的工具都有些庞大,人们一直试图利用minGPT实现小巧、整洁、可解释且具有教育意义的效果。 GPT不是一个复杂的模型,它大约包含300行代码,包括模版代码和完全不必要的自定义因果自注意模块。无论如何,所有的事情就是将一个索引序列放入一个转换器块序列中,并得出下一个索引的概率分布。其余的复杂性只是通过批处理(跨示例和整个序列长度)而变得很聪明,因此训练是有效的。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
举报类型(必选)
举报详情(选填)
0/200
沙发等你来抢
评论
沙发等你来抢