IT之家 12 月 30 日音问,一个名为 EXO Labs 的组织本日在酬酢媒体上发布了一段视频,展示了一台运转 Windows 98 系统的 26 年乐龄的奔腾 II 电脑(128MB 内存)告捷运转大型话语模子(LLM)的情形。随后,EXO Labs 在其博客上发表了一篇详备著作,进一步进展了这个形貌的细节开云kaiyun,以偏抓“擢升东谈主工智能”的愿景。
IT之家闲静到,视频中一台 350MHz 的 Elonex 奔腾 II 电脑启动 Windows 98 后,EXO Labs 运转了基于 Andrej Karpathy 的 Llama2.c 征战的定制纯 C 推理引擎,并让 LLM 生成了一个对于“Sleepy Joe”的故事。令东谈主骇怪的是,总共这个词经过运转通顺,故事生成速率也尽头可不雅。
EXO Labs 由牛津大学的野心东谈主员和工程师构成,于本年 9 月持重对外亮相,其责任是“擢升东谈主工智能”。该组织觉得,少数大型企业适度东谈主工智能会对文化、真相以及社会其他基本方面变成负面影响。因此,EXO Labs 但愿“构建绽开的基础措施,以检会前沿模子,并使任何东谈主齐能在职何场所运转它们”,从而让盛大东谈主也能在险些任何配置上检会和运转 AI 模子。这次在 Windows 98 上运转 LLM 的豪举,恰是对这一理念的有劲确认。
凭据 EXO Labs 的博客著作,他们从 eBay 上购得了一台旧式 Windows 98 电脑。相干词,将数据传输到这台老机器上却是一个挑战,他们最终通过其以太网端口使用“陈腐的 FTP”完成了文献传输。
更大的挑战在于为 Windows 98 编译当代代码,红运的是他们找到了 Andrej Karpathy 的 llama2.c,这是一个“用 700 行纯 C 代码即可在 Llama 2 架构的模子上运转推理”的器具。借助这一资源以及旧式的 Borland C++ 5.02 IDE 和编译器(以及一些小的窜改),EXO Labs 告捷将代码编译成可在 Windows 98 上运转的可试验文献。他们还在 GitHub 上公开了最终代码。
EXO Labs 的 Alex Cheema 尽头感谢了 Andrej Karpathy 的代码,并对其性能赞好意思不已,称其在使用基于 Llama 架构的 26 万参数 LLM 时,在 Windows 98 上终显明“每秒 35.9 个 token”的生成速率。值得一提的是,Karpathy 曾任特斯拉东谈主工智能专揽,亦然 OpenAI 的创举团队成员之一。
天然 26 万参数的 LLM 界限较小,但在这台陈腐的 350MHz 单核电脑上运转速率尽头可以。凭据 EXO Labs 的博客,使用 1500 万参数的 LLM 时,生成速率略高于每秒 1 个 token。而使用 Llama 3.2 10 亿参数模子时,速率则相称迟缓,仅为每秒 0.0093 个 token。
EXO Labs 的指标远不啻于在 Windows 98 机器上运转 LLM。他们在博客著作中进一步进展了其对将来的瞻望,并但愿通过 BitNet 终了东谈主工智能的擢升。
据先容,“BitNet 是一种使用三元权重的 transformer 架构”,使用这种架构,一个 70 亿参数的模子只需要 1.38GB 的存储空间。这对于一台 26 年前的奔腾 II 来说可能仍然有些悉力,但对于当代硬件以致十年前的配置来说,齐相称轻量级的。
EXO Labs 还强调开云kaiyun,BitNet 是“CPU 优先”的,幸免了对腾贵 GPU 的依赖。此外,据称这种类型的模子比全精度模子效果高 50%,况兼可以在单个 CPU 上以东谈主类阅读速率(约每秒 5 到 7 个 token)运转一个 1000 亿参数的模子。
告白声明:文内含有的对外跳转相连(包括不限于超相连、二维码、口令等体式),用于传递更多信息,省俭甄选技巧,斥逐仅供参考,IT之家总共著作均包含本声明。 ]article_adlist--> 声明:新浪网独家稿件,未经授权攻击转载。 -->