2 个月前

机器人技术

自然语言处理

Alexander Htet Kyaw Richa Gupta Dhruv Shah Anoop Sinha Kory Mathewson Stefanie Pender Sachin Chitta Yotto Koga Faez Ahmed Lawrence Sass

Abstract

三维生成式人工智能的进展使得仅通过文本提示即可生成物理对象成为可能，但在涉及多种组件类型对象的构建方面仍面临挑战。本文提出了一种融合三维生成式人工智能与视觉-语言模型（VLMs）的系统流程，实现通过自然语言指令驱动机器人完成多组件物体的装配。我们的方法利用视觉-语言模型，实现零样本、多模态的几何与功能推理，将AI生成的网格模型分解为包含预定义结构组件和面板组件的多组件三维模型。实验表明，该VLM能够根据物体的功能需求，准确判断哪些网格区域除结构组件外还需添加面板组件。在多个测试对象上的评估结果显示，用户对VLM生成的组件分配方案的偏好度达到90.6%，显著高于基于规则的分配方式（59.4%）和随机分配方式（2.5%）。最后，系统支持用户通过对话式反馈对组件分配进行迭代优化，从而在生成式人工智能与机器人技术结合制造物理对象的过程中，赋予用户更高的控制权与自主性。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 个月前

机器人技术

自然语言处理

Alexander Htet Kyaw Richa Gupta Dhruv Shah Anoop Sinha Kory Mathewson Stefanie Pender Sachin Chitta Yotto Koga Faez Ahmed Lawrence Sass

Abstract

三维生成式人工智能的进展使得仅通过文本提示即可生成物理对象成为可能，但在涉及多种组件类型对象的构建方面仍面临挑战。本文提出了一种融合三维生成式人工智能与视觉-语言模型（VLMs）的系统流程，实现通过自然语言指令驱动机器人完成多组件物体的装配。我们的方法利用视觉-语言模型，实现零样本、多模态的几何与功能推理，将AI生成的网格模型分解为包含预定义结构组件和面板组件的多组件三维模型。实验表明，该VLM能够根据物体的功能需求，准确判断哪些网格区域除结构组件外还需添加面板组件。在多个测试对象上的评估结果显示，用户对VLM生成的组件分配方案的偏好度达到90.6%，显著高于基于规则的分配方式（59.4%）和随机分配方式（2.5%）。最后，系统支持用户通过对话式反馈对组件分配进行迭代优化，从而在生成式人工智能与机器人技术结合制造物理对象的过程中，赋予用户更高的控制权与自主性。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供