百度AI领跑全球 视觉技术让机器更好地看懂真实世界

时间:2024-07-25 18:18:15  作者:bob综合体育苹果下载  来源:bob电竞ios

  马斯克旗下xAI发布创新模型Grok-1.5V 实现流程图到Python代码的转换

  OpenAI全球推介会:阿尔特曼保证ChatGPT升级不涉API用户数据

  华为哈勃首投国内AI大模型企业:面壁智能获数亿元融资,知乎CTO李大海掌舵

  ChatGPT重大更新!新版GPT-4 Turbo,颠覆你的智能想象!

  AI“黑科技”来袭,你准备好接招了吗?7月4日,百度举办第二届Baidu Create 2018(百度AI开发者大会),会上同时发布了多个“重磅炸弹”,为开发者带来最强福利。当天下午,在百度大脑论坛上,百度视觉技术部、人脸技术部、增强现实技术部总监吴中勤也带来了让机器能更好地看懂世界的技术百度视觉语义化。

  吴中勤介绍,视觉语义化可以让机器从看清到看懂视频,并提炼出结构化语义知识。视觉语义化技术首先识别人、物体和场景,同时捕捉它们之间的行为和关系,通过时序化、数字化、结构化的方式形成语义知识,最终结合领域和场景进行智慧推理,落地行业应用。

  比如在零售领域,它可以准确判断每个人的动作、行为,真正的完成顾客拿起商品就走。未来,视觉语义化技术还可进一步延展,它结合新型的传感器和AI芯片,可以在感知层面和计算层面得到大幅度的提高;结合手机可以带给用户更佳地使用体验。未来,百度视觉语义化技术将在百度AI开放平台中开放给开发者使用。

  其实,百度视觉技术一直占据一马当先的优势,为AI行业带来了巨大的贡献。日前,百度视觉技术团队凭借领先的图像识别和视频理解技术在全球两大视觉竞赛WebVision和ActivityNet中分别击败100多家参赛单位和队伍,获得多项世界第一,并受邀在全球视觉技术领域顶级学术会议CVPR(IEEE国际计算机视觉与模式识别会议)上做报告分享。

  在视频理解领域,百度视觉技术团队在ActivityNet 2018中击败众多参赛单位和队伍,获两项任务冠军,有关技术论文已发表于CVPR、AAAI等顶级学术会议。

  ActivityNet是目前视频理解领域影响力最大的赛事,与每年的顶级学术会议CVPR一起召开,今年共举办6项比赛。其中,Kinetics视频动作识别任务是业界最权威的视频分类数据集,百度连续两年斩获该项任务冠军,并将平均错误率由12.4%降至10.9%

  Kinetics数据集包含40万训练短视频语料,400个类别,今年主办方将数据集由400类扩大到600类,训练数据从40万增加到50万,包含的标签均为人类日常行为,更贴近实际。此外,百度在动作片段判断Proposal任务中获第一名,AUC领先第二名1.6个绝对百分点。

  WebVision是2017年以来新的大规模图像识别任务权威挑战赛事,其数据量超过ImageNet。相较于ImageNet竞赛数据,WebVision竞赛的数据集直接从互联网爬取,未经人工标注或筛选,识别难度大,但同时也更贴近实际场景。

  本次竞赛中,主办方将数据集合由1000类扩大到5000类,训练数据量由240万张图片扩大到1600万张图片,数据量更庞大,识别难度大幅度提高。WebVision今年共吸引了全球100多支团队参加,涵盖众多顶尖科技公司和知名高校,百度以领先第二名3.95个绝对百分点的优异成绩获得WebVision竞赛冠军。

  视频理解技术作为重要的计算机视觉技术之一,可以深度解析视频语义内容,进而输出视频相应元素,辅助人工审核编辑,提升精准用户推荐,丰富视频内容生产。百度此次获奖的技术已应用于百度线上Feed视频自动分类系统,提供视频语义化解析,在视频打标签、视频比对和视频推荐等业务上均发挥了重要作用。

  此次,百度视觉技术作为开发者大会上发布的重点技术,它将持续为开发者输出创造新兴事物的能力,让机器更好地理解真实世界,让人们的生活变得更智能便捷。

  【ITBEAR科技资讯】4月13日消息,亚马逊全球机器人、机电一体化和可持续包装总监斯特凡诺・拉罗韦雷近日在接受CNBC的“Street Signs Europe”节目采访时,明确阐述了亚马逊在机器人和自动化技术方面的立场。拉罗韦雷表示,这些技术并不会取代人类的工作,反而会提升人们

  马斯克旗下xAI发布创新模型Grok-1.5V 实现流程图到Python代码的转换

  【ITBEAR科技资讯】4月13日消息,马斯克旗下的人工智能公司xAI继3月下旬推出Grok-1.5大语言模型后,于近日再度发布其首个多模态模型Grok-1.5 Vision(简称Grok-1.5V)。xAI计划近期邀请早期测试者及现有的Grok用户参与Grok-1.5V的测试。新模型不仅增强了文本理解能力,更

  OpenAI全球推介会:阿尔特曼保证ChatGPT升级不涉API用户数据

  【ITBEAR科技资讯】4月13日消息,近日,AI领域的领头羊OpenAI在全世界内举办了一系列推介会。公司首席执行官山姆・阿尔特曼(Sam Altman)亲临旧金山、纽约和伦敦,向众多“财富500强”企业的高层管理者发表了演讲。在这些活动中,阿尔特曼明确承诺,OpenAI将不会

  【ITBEAR科技资讯】4月13日消息,360公司近日在GitHub上公开了其360智脑7B(70亿参数模型),这一大模型是基于3.4万亿Tokens的语料库进行训练的,主要涵盖了中文、英文和代码。该模型提供了4K、32K、360K三种不同的文本长度选项,其中360K(大约50万字)被360自称为当前国内

  华为哈勃首投国内AI大模型企业:面壁智能获数亿元融资,知乎CTO李大海掌舵

  【ITBEAR科技资讯】4月12日消息,北京面壁智能科技有限责任公司昨日成功完成了新一轮数亿元的融资,由春华创投和华为哈勃领投,北京市人工智能产业投资基金等跟投,同时知乎作为战略股东也持续跟投支持。这一轮融资的完成,无疑为面壁智能在人工智能大模型领域的发展注

  【ITBEAR科技资讯】4月12日消息,三星的Galaxy AI经营销售的策略取得了显著的成功。最新研究报告数据显示,高达25%的Galaxy S24系列手机消费者因为看重这些AI功能而选择了这款手机。依据市场调查机构Worldpanel ComTech于2024年2月进行的一项跨国调查,涉及法国、德国、英国、意大

  【ITBEAR科技资讯】4月12日消息,近日,Github前首席执行官Nat Friedman在社会化媒体平台X上发帖,透露了谷歌最新AI聊天工具Gemini的流量数据。据Friedman称,Gemini的流量已达到了ChatGPT的25%左右,这一显著成绩是在谷歌并未借助其庞大的分销渠道(如Android、Google搜

  【ITBEAR科技资讯】4月12日消息,据内部消息人士披露,全球AI领军企业OpenAI的CEO山姆·奥特曼(Sam Altman)正积极地推进一个宏大的计划,意在构建一个集结了全球各国政府和业界巨头的联盟。这个联盟的核心目标是确保人工智能技术发展所必需的芯片、能源以及数据中心

  【ITBEAR科技资讯】4月12日消息,近日,百度公司创始人李彦宏在内部讲话中阐述了百度决定不对其人工智能模型文心一言进行开源的原因。在目前国内推出开源模型的公司并不多的情况下,百度的这一决策引起了业界的广泛关注。李彦宏解释了百度选择不开源模型的几个主要原因

  ChatGPT重大更新!新版GPT-4 Turbo,颠覆你的智能想象!

  【ITBEAR科技资讯】4月12日消息,OpenAI官方今日宣布,新版GPT-4 Turbo已开始向所有付费ChatGPT用户开放。此次更新在写作、数学、逻辑推理和编码等多个角度均带来了显著的提升。据ITBEAR科技资讯了解,GPT-4 Turbo的更新旨在提升使用者真实的体验,特别是在响应速度和交流直接性

  【ITBEAR科技资讯】4月12日消息,近期,一款名为Kimi的智能助手在国内AI领域掀起了热潮。其背后的勇于探索商业模式的公司月之暗面凭借Kimi的“200万字长文本”能力率先出圈,甚至催生了“Kimi概念股”。然而,随着阿里、百度等大厂的跟进,这场长文本推理能力的竞争日趋激烈。Kimi的走

  【ITBEAR科技资讯】4月12日消息,OpenAI今日声明,已向付费的ChatGPT用户推出了全新的GPT-4 Turbo。相较于1月份推出的版本,GPT-4 Turbo在写作、数学运算、逻辑推理及编码方面的能力均有所提升。目前,GPT-4 Turbo可适用于ChatGPT Plus、Team、Enterprise及API等多个平

  【ITBEAR科技资讯】4月11日消息,近日,一份由在线营销企业Authority Hacker进行的两千人样本调查显示,近八成的受访美国公民希望对AI实施更为严格的法律监管措施,尽管这可能会对人工智能技术的创新速度产生一定影响。随着人工智能技术的快速的提升,虽然为人类生

  【ITBEAR科技资讯】4月11日消息,苹果公司于4月8日发布了一款名为Ferret-UI的新型多模态大语言模型,该模型能够有效理解和与屏幕信息进行交互,并在所有基本UI任务上超越了GPT-4V。这一技术的发布,让人们对未来智能交互的期待愈发高涨。据ITBEAR科技资讯了解,Ferret-U

  【ITBEAR科技资讯】4月11日消息,蚂蚁集团自主研发的智能研发平台CodeFuse近期推出了一项名为“图生代码”的新功能,该功能允许开发人员利用产品设计图一键生成代码,从而明显提升前端页面的开发效率。目前,该功能正处于内测阶段。CodeFuse作为蚂蚁集团内部推行AI编程

  全球首款!华硕8K Mini LED显示器ProArt Display PA32KCX即将发布

  飞米FIMI MINI 3无人机4 月 15 日发布:多彩机身,三轴云台稳定拍摄

  谷歌AI应用 Google Vids亮相:PPT技能通用,视频制作与多人协作一站式搞定

  特斯拉加速推进人形机器人项目,招聘技术撰写员预示Optimus即将面世

  ChatGPT重大更新!新版GPT-4 Turbo,颠覆你的智能想象!

  本网站LOGO小熊标志受版权保护,版权登记号:鲁作登字-2015-F-025467,未经ITBEAR官方许可,严禁使用。