专注为AI模型提供训练数据 「爱数智慧」赋能人工智能发展

  我们的所有目光几乎都集中在了算法、芯片上,却忽视了数据在智能化设备中的作用和位置。

  人工智能已经成为了构建未来生活的最重要的技术手段,其产业规模也在稳定上升中。据有关数据显示,2019年全球人工智能产业规模突破了700亿美元,到2020年,全球人工智能产业规模将达到近1000亿美元。

  这种产业规模的扩大是整条产业链的同时扩大,也就是说无论是人工智能的基础层(芯片)、技术层(算法、数据、传输和处理技术)还是应用层(智能化设备),其细分产业都实现了稳步增长。

  就我国而言,近年来,应用层的消费级智能产品如雨后春笋般涌现,具备智能问答、语音控制、人脸识别功能的智能产品和应用在不断提升人们生活和工作的便利性,这既为智能设备市场带来了生机,同时也产生了激烈的市场竞争。

  但总体而言,目前的消费级智能产品的性能仍有提高空间。北京爱数智慧科技有限公司(以下简称“爱数智慧”)CEO张晴晴告诉创业邦:“在智能产品大量推广的过程中,由于底层技术和数据处理的原因,其交互能力并没有让用户满意。”张晴晴2005年进入中国科学院声学研究所,专注于研究语音识别领域。曾为百度、腾讯、阿里、360、UCweb等各大互联网公司搭建过语音识别的baseline声学建模系统。

  爱数智慧CEO张晴晴

  爱数智慧成立于2016年,是一家为从事语音识别、语音合成、自然语言处理等人工智能领域研发与应用研究的企业、科研机构提供专业的数据采集和标注服务的科技公司。迄今服务了全球上百家合作伙伴,涵盖了智能家居、智能客服、智能助手、智能车载、智慧教育、机器翻译等场景,业务涉及全球五大洲数十种语言。

  张晴晴表示,以语音交互为例,在输入信息为语速适中的、音量正常的、标准的普通话时,设备与用户的交互过程比较顺利,但输入语音一旦出现口音、方言、环境噪音或音量变化时,具有语音交互能力的产品的识别率往往会大打折扣,严重影响用户体验。

  根据中国企业品牌研究中心数据显示,2019年我国智能音箱用户满意度总体来说并不高,其中华为是2019年国内智能音箱用户满意度最高的,净推荐值为89.1。天猫精灵和小度分别位列第二和第三,排在第四的为苹果。小米则排在第五,净推荐值和推荐者比例均不足70%。

  大品牌的智能设备尚且如此,其他品牌或仅仅集成了语音交互功能的设备的使用性能往往处于更低的水平。而导致这种问题出现的最重要的原因之一是设备没有很好的数据驱动,其在数据训练时没有涵盖日常生活中真实的使用情况。

  从市场情况来看,除了科大讯飞等顶级企业,大量的公司在打造自己的智能产品的过程中根本不具备收集整理AI数据的能力,甚至不清楚需要用什么样的数据来对AI设备进行训练和支撑。这就需要市场上有像爱数智慧这样的数据服务提供商,专门提供数据采集、标注和转写的公司,来为智能设备、应用的研发商提供帮助。

  爱数智慧通过建立数据采集和标注平台,最大限度地保证了各个细分领域的数据需求。就手机朗读音频数据而言,爱数智慧数据集产品覆盖七大方言,包括四川、广东、上海、湖北、湖南等地方方言,以及英语、中英混合、俄语、西班牙语、韩语等50+语种的数据集。

  为了解决实际使用环境复杂的问题,爱数智慧提供不同场景的数据集产品。例如在车载语音助手场景下,爱数智慧可以提供多样的训练数据,包括噪音数据(车内噪音,环境噪音,风噪等)、车载命令数据、车载信息娱乐交互数据等,覆盖了多语言、地方口音及不同性别和年龄的说话人等,以此来保证真实应用场景下产品和服务的一致性、稳定性。

  智能家居场景下同样如此,由于智能家居往往是多设备(电视、空调、洗衣机等)同时运行,因此会产生设备噪音,同时还会出现多人同时说话的情况。针对这样的条件,爱数智慧收集了多人对话状态下的语音指令数据集、不同背景噪音下的语音指令数据集、不同录音设备下的近场、远场语音指令数据集。

  这种带有复杂信息的,并不标准的音频数据往往更有价值,其应该被囊括进AI设备的训练过程中而不是被选择性的剔除。张晴晴告诉创业邦:“不应该通过算法来寻找适合的数据,而应该用真实的数据来推动算法的升级,进而推动产品的性能的提高和产业的进步。”

  自有的数据采集平台保证了爱数智慧的数据版权和可回溯性。通过众包模式,爱数智慧可以高效采集到大量的数据,同时可以利用自身的专业能力保证数据的可用性。换句话来说,爱数智慧可以通过发布任务的方式来收集具有指定特征(如近、远场、噪音等)的语音,避免了大量非结构化数据的产生。

  在数据标注方面,爱数智慧采用了人机协同的标注流程,制订了清晰的标注规则,正确率达99%以上,有效保证了数据质量。同时,无论是数据采集平台还是标注平台,爱数智慧都开发了相应的智能算法,用来帮助采集人员更好地完成数据采集和标注任务。

  爱数智慧目前针对的客户如消费级机器人、智能家居、车载语音助手、智能客服服务等厂商,其自有数据集产品可以更好地满足不同层级的客户的需求:通过定制化的收集、加工、标签化的动作,爱数智慧可以满足特殊领域客户的特殊需求,双方通过项目的方式完成合作

  面向市场,爱数智慧可以提供大量的、多元化的各行业、场景下的标准数据集,类似一个数据图书馆,客户可根据需求选择适合的数据集,通过流量计费的方式自由获取。

  爱数智慧目前规模超过100人,拥有数十人的研发团队,公司总部设立在北京,并在香港设立全资子公司,全国多地设有数据处理中心。融资方面,爱数智慧于2018年完成了A轮融资,投资方为策源资本和梅花天使。此前,爱数智慧曾于2017年初获得了明势资本的Pre-A轮融资。

  尽管目前我国的人工智能数据行业市场还没有完全兴起,但着眼于未来,人工智能数据产品和服务将伴随着人工智能和通信技术的发展一同扩大。短时间内数据生产环节还需要一定的C端劳动力,但市场的成长一定会使数据采集、标注等产业链愈发成熟,甚至出现相关环节的专业性人才。而这也是一个人工智能高度发达的社会所必须出现的数据产业状态。

  本文文章图片来源于爱数智慧,经授权使用。本文为创业邦原创,未经授权不得转载,否则创业邦将保留向其追究法律责任的权利。如需转载或有任何疑问,请联系editor@cyzone.cn。

责任编辑:Robot RF13015
精彩推荐
加载更多
全部评论
金融界App
金融界微博
金融界公众号