本报讯(记者 韩晨柯 通讯员 洪美娜 潘菁瑶)近日,一个想让全球人工智能开发者都能用上“杭州标准”的数据开源社区,在萧山区钱江世纪城启动建设。
这个名叫“ZODA数搭”的国际数据开源社区,要回答两个问题:训练AI的数据从哪里来?训练出来的模型到底好不好?
社区打算建一个开放共享的“数据仓库”,把高质量的数据集拿出来给全世界的开发者用;同时打造一套覆盖主流AI模型的评测基准,连接全球专家网络。目标是做成全球最有影响力的高质量数据开源基础设施。
牵头建社区的整数智能信息技术(杭州)有限责任公司,就诞生在钱江世纪城,阿里巴巴、字节跳动都是它的客户。
整数智能副总裁孟卓飞认为,钱江世纪城聚集近200家国家高新技术企业。杭州有深厚的开源土壤——既有DeepSeek这样的开源模型,也有魔搭社区这样的工具链平台,在全球开发者圈子里的认可度很高。数搭社区建在这里,有“邻里协作”的优势。
按照规划,未来两年,数搭社区将汇聚100多万名行业专家,覆盖100多个国家和地区;吸引200家AI企业入驻,带动超过100亿元规模的AI数据产业发展。
“要让全球AI开发者在训练模型时,都能用上来自杭州的数据标准。”孟卓飞说。