前沿科技

AI视野:王小川发布新大模型;必应免费向用户提供DALL-E3

时间:2023-11-05 06:24 作者:M 来源:360kuai 浏览次数:30
导读:????????????????大模型动态王小川发布新大模型Baichuan53B 宣布闭源商业化王小川团队发布新的53B大模型,这是继Baichua
AI视野:王小川发布新大模型;必应免费向用户提供DALL-E3

????????????????大模型动态

王小川发布新大模型Baichuan53B 宣布闭源商业化

王小川团队发布新的53B大模型,这是继Baichuan-7B和Baichuan-13B之后他们的第三个大模型产品,但与前两款不同,这次选择闭源。

AiBase提要

????53B模型规模达到530亿参数,是王小川团队到目前为止参数量最大的模型

????53B模型结合了搜索技术,增强了对抗生成和时效性等方面的能力

???? 王小川表示商业化的时机已到,53B闭源有利于直接面向企业客户商业化运营

开放模型权重被指将导致AI失控,Meta遭举牌抗议

AI领域开源与闭源选择存在分歧,但大模型时代开源力量崛起,Meta因开源陷入麻烦,抗议者质疑开放模型权重安全性,LeCun则表态开源AI不可阻挡。

AiBase提要

???? 开源模型公开权重可能被滥用,Meta遭抗议

???? 开源与闭源各有利弊,关键看使用

???? 开源促进AI健康发展不可阻挡

港中大MathCoder模型挑战GPT-4,数学题解得分超越后者

港中大开发的 MathCoder 大模型在数学推理方面超过了 GPT-4,能够无缝集成代码解决数学问题。

论文地址:https://browse.arxiv.org/pdf/2310.03731.pdf

AiBase提要:

1️⃣ 港中大开发的 MathCoder 大模型数学能力超过 GPT-4。

2️⃣ MathCoder 在 MATH 和 GSM8K 数据集上取得了优秀成绩。

3️⃣ MathCoder 通过无缝集成代码解决数学问题。

????????????AI应用

微软Bing Chat免费向用户提供DALL-E3

微软宣布将 OpenAI 最新模型 DALL-E3集成在 Bing Chat 和 Bing Image Create 中,并免费提供给用户使用。

AiBase提要:

1️⃣ DALL-E3是一款类 Midjourney 产品,通过文本就能生成二次元、3D、朋克、涂鸦等多种类型图片。

2️⃣ 微软表示,为了保证用户通过 Bing Image Creator 创建的内容的安全性,已经在生成的图片中内置了符合 C2PA 规范的数字水印。

3️⃣ 用户在创建图片的过程中,提供的文本细节越多、描述越丰富,最终生成的图片也就越精准。

文心一言将再次升级

百度宣布将于10月17日举行“百度世界大会2023”,李彦宏透露将带来文心一言、搜索、地图、网盘等应用产品的全新亮相。

AiBase提要:

???? 李彦宏将在主题演讲中分享AI原生应用的心得,重点介绍生成式AI的想象和创新空间

???? 文心一言将进行再次升级,发挥在生活生产中的更重要作用

???? 百度搜索、地图、网盘等应用将带来全新亮相,提供更好的用户体验

微软 OneDrive 将迎来全新升级:Copilot 将为用户提供更多 AI 功能

微软推出升级版OneDrive,整合Copilot人工智能功能,帮助用户更便捷地管理文件。

AiBase提要:

???? OneDrive将整合Copilot人工智能助手,可自动生成文件内容摘要,提高文件搜索效率。

???? OneDrive Copilot可预测用户需求,建议将相关文件归类到同一文件夹。

???? OneDrive 将推出人工智能搜索功能,可在2024年初公测。

谷歌为Google Assistant注入AI新功能

谷歌在Made by Google活动上为Google Assistant注入了新的AI功能,如与Bard的融合、理解更自然的语音命令、电话体验优化等,以提升其在语音助手市场的地位。

AiBase提要:

???? Assistant with Bard将成为更加智能的语音助手

???? 可以理解更自然的语音交互方式

???? 电话筛选和垃圾电话过滤功能加强

????????????AI新鲜事

原百度AI高管景鲲和朱凯华离职将联手创业

原百度人工智能高管景鲲和朱凯华最近宣布离职,计划联手创业。两人在语音交互领域积累了丰富经验。据悉,他们的创业项目会结合大模型技术,目标是打造语音交互一体化解决方案。业内人士认为,两人在软硬件结合方面的经验,将会是创业过程中的优势。

AiBase提要:

景鲲和朱凯华分别曾任小度科技CEO和CTO,景鲲被称为“小冰之父”

二人均有软硬件结合经验,擅长语音交互领域

拟创业项目预计结合大模型技术,目标打造语音交互一体化解决方案

Windows12将于2024年推出:AI 功能刺激更新需求

英特尔高管在公开场合透露,微软可能会在2024年推出Windows12操作系统,以刺激用户对新系统的更新需求。

AiBase提要:

???? 英特尔CFO提到2024年Windows会有重大更新,意味着Windows12即将推出

???? 微软近期在Windows11中加入AI功能,Windows12可能会进一步整合AI

???? Windows12开发已在加速,正式发布时间表与2024年秋季吻合

淘宝:国庆期间AI修图服务搜索量周环比暴增数十倍

淘宝数据显示,国庆期间淘宝上AI修图服务搜索量周环比暴增数十倍,景点代打卡等“懒人旅游”服务也大受欢迎。

AiBase提要

????淘宝上境内外旅游门票预订大幅增长

????代打卡、代P图等“懒人旅游”服务火爆

????AI修图服务搜索量周环比暴增数十倍

百万网友围观DALL-E3新玩法!钢铁侠特斯拉皆“中招”

最近DALL-E3在网友手中玩出了多种新玩法,比如整齐摆放物品,生成各类难以拍摄的产品照片,配合提示词可生成不同风格图像。这种风格叫做knolling,重点在于摆放整齐,也是不少产品摄影的表达方式。

AiBase提要:

????DALL-E3可将物品整齐摆放,生成有趣的组合照片,比如电影人物的身体部件平铺照。

????DALL-E3可轻松生成正常拍摄困难的产品组合照,如特斯拉全系列车型。

????添加提示词可让DALL-E3生成不同风格的图像,非常适合产品摄影创作。

研究人员称,即使是最糟糕Claude AI版本也比GPT3.5更好

根据Chatbot Arena排行榜,Anthropic的Claude模型在性能上超越了OpenAI的GPT-3.5,即使是最差的Claude版本也优于ChatGPT免费版的GPT-3.5。

AiBase提要

???? Claude模型在排名上整体领先GPT-3.5

???? 排名考量了上下文处理能力、长文本生成等多个维度

???? 排名结果将影响用户选择ChatGPT或Claude

宾夕法尼亚州立大学研发出“电子舌头”,有望赋能AI品尝美食

宾夕法尼亚州立大学研究团队最近研发出一种基于石墨烯的电子“舌头”,可以检测不同味道,为人工情感智能的发展带来重大突破。

AiBase提要:

????研究团队研发出基于石墨烯的电子“舌头”,能检测不同味道,实现AI“品尝”功能。

????研究关注将情感智能引入AI,通过仿效人类味觉过程使AI更人性化。

????创新可应用于智能饮食推荐等领域,未来可拓展到视觉、听觉等其他感官的AI。

AMD蓄势待发准备挑战英伟达的人工智能霸主地位

AMD正在加紧挑战英伟达在AI市场近乎垄断的地位,凭借与PyTorch的合作和微软的支持,有望颠覆现状。

AiBase提要

⚡AMD一直在默默取得进展,开发了CUDA转换工具,即将推出的Instinct MI300A处理器具有竞争力。

????AMD与PyTorch合作,为后者提供AMD GPU支持,也获得了微软的战略支持。

????AMD有可能借助战略合作伙伴关系,在AI市场颠覆英伟达的垄断地位。

????‍????????????聚焦开发者

浙大校友联手微软开源LLaVA-1.5,硬刚GPT-4V

最近威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员联手开源了新型多模态模型LLaVA-1.5,在多个基准测试中实现SOTA,展现出强大的多模态理解能力,被认为可与GPT-4V形成正面竞争。

论文地址:https://browse.arxiv.org/pdf/2310.03744.pdf

AiBase提要:

LLaVA-1.5在11项基准测试实现了SOTA,使用8块A100GPU,LLaVA-1.5的训练仅需1天时间即可完成。

LLaVA-1.5在多模态理解上超越GPT-4V,可对其形成有力竞争。

LLaVA-1.5采用最简单的架构和公开数据集,性能显著提升。

OnnxStream:可在树莓派Zero2上运行Stable Diffusion1.5

OnnxStream是一款内存占用极低的机器学习推理引擎,可在内存仅512MB的树莓派Zero2设备上运行Stable Diffusion1.5等大型深度学习模型。

项目地址:

https://github.com/vitoplantamura/OnnxStream/tree/846da873570a737b49154e8f835704264864b0fe

AiBase提要

???? OnnxStream通过出色的内存管理,可极大降低模型运行时的RAM占用。

???? OnnxStream支持多种功能以适应资源受限环境,如权重加载器、注意力切片等。

???? OnnxStream实现了跨平台支持,可灵活运行在Linux、Windows、Mac和Termux等系统。

StreamingLLM:让AI模型无限期平稳运行的一种方法

Meta、麻省理工和卡内基梅隆的研究人员提出StreamingLLM技术,通过在对话不同阶段重新引入初始标记,解决了LLM在长时间对话中性能下降的问题,使其能够在无限长度文本上保持高性能。

AiBase提要:

???? Meta、MIT和CMU的研究人员提出了StreamingLLM技术,旨在解决LLM在长时间对话中的性能下降问题。

???? StreamingLLM利用attention sinks的概念,在对话不同阶段重新引入初始标记,使LLM能够在无限长度文本上保持高性能。

???? 研究人员提出了使用单个特殊标记作为attention sink来稳定LLM的关注机制,保持其在长时间对话中的高性能。

全新图文生成方式MiniGPT-5生成文本的同时创作匹配的图片

MiniGPT-5是一款基于大型语言模型的视觉与语言协同生成工具,通过生成vokens实现图像文本协同生成。

项目地址:https://github.com/eric-ai-lab/minigpt-5

AiBase提要

???? MiniGPT-5实现图像文本协同生成,用户可输入文本生成图像或输入图像生成文本

???? MiniGPT-5通过两阶段训练提高模型鲁棒性,无需详细描述进行训练

⭐️ MiniGPT-5在多个数据集上表现出色,是多模态生成有力工具

轻量级代码库分析工具ctoc开源

ctoc是一个轻量级的代码库分析工具,基于gocloc,可以快速统计代码库中的令牌数量,支持多种语言和输出格式,对理解代码库复杂性和与不同LLM模型互操作很有帮助。

项目地址:https://github.com/yaohui-wyh/ctoc

AiBase提要

???? ctoc可以快速统计代码库中的令牌数量,分析复杂性

???? 支持多种编程语言,可以轻松统计不同语言的令牌数

⚙️ 提供多种输出格式,支持与不同LLM模型互操作

举报/反馈
前沿科技