研发的人形机器人叠衣服时会“抖”一下

杭州准独角兽完成近6亿融资

2025-07-22

记者 童蔚

你抬起手臂,一旁的机器人也同步抬起手臂;你往右前方伸手,机器人也将手伸向右侧……在6月下旬的华为开发者大会上,许多人完成了“全身零延时遥操”人形机器人的初体验。

所谓全身零延时遥操,简单说,就是你做什么机器人同步做什么。目前同步的只是手臂部分,却也足以让很多人感受到电影《环太平洋》“人机一体”的科幻感。

这个名叫墨子(型号Moz1)的机器人,来自杭州的千寻智能。昨天,这家杭州准独角兽企业宣布完成近6亿元PreA+轮融资,由京东领投,中国互联网投资基金、浙江省科创母基金、华泰紫金等知名机构跟投。

同一天,众擎机器人、逐际动力两家初创企业也发布了融资通告。国内人形机器人赛道正迎来集中资本动作,仅7月上半个月行业融资就达16起,日均1起。

“如果顺利,墨子年底就会出现在一些办公场景里,解决现实问题。”千寻智能的创始人韩峰涛是位80后,浙大背景,从事过工业机器人的研发。按照他的推算:未来10年,这个世界上10%的人可以拥有自己的机器人。

叠衣服时会“抖”一下

从右侧收纳筐一堆T恤中缓缓“拿”起一件,拖到桌子中央,平铺;拎起同一侧的袖子和衣角,抖一下、折叠,再拎起另一侧……一镜到底的视频画面中,两只机械臂正在进行连续叠多件衣服的任务。叠完后,它还会把衣服码放成一摞。

这段前阵子在网上很火的视频,是具身智能创业公司千寻智能Spirit AI用来展示阶段性技术成果的抢先版演示。

在机器人领域,有一个著名的“莫拉维克悖论”:对人类来说困难的任务,机器人可能轻松完成;对人类而言轻而易举的本能动作,对机器人而言却可能是个巨大的技术挑战。

这也是为什么人形机器人越会跳舞、打拳、鲤鱼打挺,越多人发出灵魂拷问:什么时候它们能帮我做家务?哪怕是帮忙洗个碗、叠个衣服也好。

全流程叠衣服,就是一个连续长程复杂任务。

处理柔软多变的衣物,涉及动态感知、复杂操作序列等,远比拿取刚性物品更有挑战。从筐里拿起衣服再折叠,与“叠平铺在桌面上的衣服”,难度也完全不同。在前者的情境中,“每件衣服的褶皱、质地和摆放形态都具有不可预测性。”千寻智能创始人兼CEO韩峰涛解释,这要求机器人具备实时感知和自适应调整的能力。

实现这一系列流畅操作的核心,是千寻自主研发的端到端“视觉-语言-动作”模型(VLA,Vision Language Action)——Spirit v1。

这个集视觉、语言和动作于一体的多模态模型,赋予了机器人动态场景理解与自主决策的能力,能像人一样感知、理解和行动,甚至还会在折叠时“抖”一下衣服——这一个小动作瞬间“抖”进了许多网友的内心。

中国首个拥有全身高精度力控的机器人

洗碗、晾衣服、端茶倒水……我们一直期待着机器人能胜任各种家务,但泛化能力不足始终是最大障碍。

其中一个关键的解决方案就在视觉语言动作模型VLA。顾名思义,这个模型的目标就是让机器既能理解和思考,又能给出符合人类预期的行动,无缝打通“感知-理解-决策-执行”的闭环。

近些年,VLA已经成为具身智能领域绕不开的关键技术。6月初,美国明星人形机器人公司Figure发布和OpenAI分道扬镳后的最新进展视频:人形机器人Figure 02在工厂里熟练地干起了快递分拣员,背后用的就是VLA模型。

在智能驾驶领域,理想已经推出了自研的VLA模型。用创始人李想的话来说,“它是一个司机大模型,让汽车像人类的司机一样去工作的一个模型”。

数据质量决定模型上限,这也是当前训练VLA大模型的挑战之一。千寻构建了分级数据训练体系:Spirit v1从海量网络视频学习人类行为模式,再通过现实场景采集的遥控操作数据打磨细节,最终借助机器人自主试错实现能力跃升。

“未来模型的进化,取决于千家万户真实使用场景的数据。”韩峰涛表示。

有了模型和数据,人形机器人才有足够的泛化能力,在行动上实现“举一反三”。韩峰涛说,墨子是“中国首个拥有真正意义多任务连续泛化具身模型”的机器人,也是“中国首个拥有全身高精度力控的具身智能机器人”。

“全身零延时遥操实现的人和机器的高度同步,就是精度和力控的体现。”韩峰涛说。

堪比辞职信的万字长文

韩峰涛的家乡是距离杭州1100多公里的河北石家庄。和很多男孩一样,他从小就是个“动手派”,喜欢变形金刚,沉迷于组装遥控飞机和小车。只不过对很多人来说玩过就玩过了,而韩峰涛童年折的纸飞机最终回到了他的手里。

从华中科技大学,到浙江大学控制科学与工程学院,对于机械的热爱像一条隐形的线,牵引着他的求学轨迹。本科期间参加的机器人世界杯RoboCup的经历尤其难忘,那是他第一次真切感受到机器人技术的脉动。

2014年,他创立珞石机器人,凭借自己在控制技术上的专长,带领公司一步步成长为国内高性能轻型工业机器人的领军企业。

随之而来的一个问题是,既然在工业领域机器人扮演的角色越发重要,那它们什么时候能像科幻片里描绘的那样走进大众生活。

“在这轮AI技术出现前,工业机器人只能按照预设程序执行一些重复性任务,无法在更泛化的场景中使用。”韩峰涛表示,OpenAI的ChatGPT-3.5让他看到了机器人“开窍”的可能。

几乎在两年前的这个时候,韩峰涛在知乎上发表万字长文《当机器人拥抱大模型》,再次叩问行业痛点。在他看来,大模型在具备多个领域的基础知识、理解自然语言、连续对话、小样本学习等能力,恰好能满足机器人在任务描述、任务分解、程序生成、任务交互等方面的需求。

结论是,两者结合将构成机器人开发人员梦寐以求的愿望,即任务级编程/交互,“只需要告诉机器人它要做的任务是什么,机器人就会理解需要做的事情,拆分任务动作,生成应用层控制指令,并根据任务过程反馈修正动作,最终完成人类交给的任务”。

想清楚这些,韩峰涛再也坐不住了。几个月后,他离开珞石开启二次创业。这次,他想让AI在物理世界发挥作用,“最佳载体就是机器人”。

在全球顶尖实验室里找到志同道合者

在确定创业方向后,韩峰涛开始了一场特殊的“寻人启事”。他打开6000多个好友的列表,期待找到同频搭档。花小半年时间与100多人接触后,最终找到了清华大学交叉信息研究院的助理教授、博导高阳。

在这轮大模型和具身智能浪潮的背后,暗藏着一张由全球学术精英编织而成的关系网络。他们提供技术基础,又因为产学研相结合的理念,推动了这一领域的创业热。其中,斯坦福、伯克利、卡内基梅隆和麻省理工学院这四所美国计算机名校,构成了海外技术创新的核心策源地。

高阳正毕业于伯克利。他师从计算机视觉泰斗特雷沃·达雷尔,又跟随强化学习领域的大牛皮耶特·阿布比尔进行博士后研究。后者的实验室,先后走出了OpenAI联合创始人约翰·舒尔曼等15位知名AI创业者。

一个是深耕机器人硬件的行业“老兵”,一个是专注于计算机视觉和强化学习10余年的科学家,韩峰涛与高阳前后见了10多次面,从技术路线聊到公司架构、企业文化,最终达成共识,千寻智能应运而生。

“千寻”这个名字,取“众里寻他千百度”之意,也暗含着在技术突破和商业化路径探索道路上的“千寻万找”。在综合考量人才储备、生活环境、创业氛围等因素后,他们选择将公司总部落地杭州。

“我们的目标,是构建下一代智慧劳动力,未来10年让10%的人拥有自己的机器人。”在韩峰涛看来,未来5年内,具身智能可以先在一些细分场景落地,有了珞石那会儿的创业经验,他说这次从一开始就更多地以市场需求为导向。