具有感官的ChatGPT开始入侵物理世界

AI新闻快讯 1年前 (2023) 玲珑居

1,085 0 9

Openai推出重大更新，实现看、听、说全方位能力。

近日，Openai官方博客发布消息，展示了一项自从大型语言模型ChatGPT-4 推出以来的最大功能更新。据官方发布的应用案例显示，现在人们可以使用手机摄像头和麦克风，通过ChatGPT解决实际问题。比如，用户可以拍摄共享单车的照片，然后询问人工智能助手如何调整座椅。随着技术的快速迭代，生成式 AI 竞赛已经进入了一个新的阶段——多模态之争。在这个阶段，各大科技公司竞相推出了一系列新产品
和功能，借助人工智能技术，突破传统搜索引擎和聊天机器人的局限，为用户带来更丰富、更精准的交互体验。

ChatGPT-长了眼睛和嘴巴

多模态竞争：从文本到图像，AI技术的下一个前沿

随着技术的不断发展，我们正逐步进入一个全新的AI时代——多模态AI竞赛。无论是Meta的AudioCraft项目，还是谷歌Bard和微软Bing聊天功能的升级，都在向世界宣告着多模态时代的到来。

最近，Meta推出了一个名为AudioCraft的全新项目，这个项目将AI的能力从文本扩展到了音乐领域。通过AI技术，AudioCraft能够生成全新的音乐作品，这无疑是对AI能力的一次全新拓展。与此同时，谷歌的Bard和微软的Bing也在其聊天体验中引入了多模态功能。这种功能使用户可以在与这些AI助手交流时，不仅局限于文本，还可以通过图像、音频等多种形式进行交流。

亚马逊也没有落后，他们正在借助大型语言模型（LLM）的力量来增强其Alexa数字助理的功能。为了在这个全新的多模态AI竞赛中占得先机，亚马逊刚刚宣布了斥资40亿美元投资OpenAI的竞争对手Anthropic的消息。而苹果也在尝试通过AI技术生成语音，他们称之为Personal Voice。

在图像生成模型方面，OpenAI的DALL-E 3在上周发布后，已经可以在支持文本和排版生成的最新模型中生成图像。而当地时间周一晚，OpenAI又发布公告称ChatGPT现在能够分析图像，并在文本对话中反应出对图像的理解。此外，ChatGPT移动应用程序还将增加语音合成选项，与现有的语音识别功能搭配使用时，将实现与人工智能助手的完全语言对话。

在这个全新的多模态AI时代，各种技术的交汇与融合正在不断地打破我们的认知边界。可以预见的是，未来的AI助手将越来越智能化，能够更好地理解和响应用户的各种需求。而这一切的背后，正是生成式AI技术的不断进步和应用场景的不断扩展。在这个竞赛中，我们期待看到更多的创新和突破，以及AI技术在各个领域的更广泛应用。

现在的ChatGPT已经具备了语音功能。这个功能由一个新的文本转语音模型（text to speech）驱动，只需要文本和几秒的语音样本就可以生成类似人声的音频。这个功能使得ChatGPT不仅能够理解和生成文本，还能够以语音形式呈现回答，进一步增强了它的交互性和自然性。

OpenAI在公告中还提到了他们与专业配音演员合作创建了语音条，这也意味着ChatGPT可以生成更为真实和自然的语音。此外，ChatGPT还使用了OpenAI开源的语音识别系统Whisper，可以将用户的语音转录为文字，这使得ChatGPT在语音交互方面表现得更加出色。

通过使用GPT-3.5或GPT-4模型，ChatGPT现在能够处理和解析上传的图像，就像它处理文本输入一样。这个新功能让用户可以点击图像并将其添加到聊天中。然后，ChatGPT会根据图像中的文本进行分析，并给出回答或响应。

ChatGPT推出的语音交互和图像识别功能为聊天机器人带来了前所未有的实用性，使它们从简单的文本处理工具向更贴近真实生活的方向发展。同时，这也预示着未来AI系统的发展趋势——不仅要理解抽象的文字世界，还要能够感知复杂的语音、图像信息，甚至是物理世界，从而真正达到人机交互的境界。

版权声明：玲珑居发表于 2023-09-26 21:12:31。
转载请注明：具有感官的ChatGPT开始入侵物理世界 | 玲珑居

暂无评论

暂无评论...

具有感官的ChatGPT开始入侵物理世界

AI 绘画领域再创新高，新控制大师以 1% 参数超越 ControlNet

重磅！李嘉诚豪捐6000万港元推动AI医疗行业建设！

暂无评论