█政策法规与新闻
美国联邦机构为应对量子计算和人工智能的影响做好准备
新加坡推动量子计算和绿色数据中心,助力AI发展
虚假信息在社交媒体上的扩散及其影响
Databricks 收购 Tabular 以建立通用数据湖标准
新研究提出更公平的人工智能决策方法
█大模型与基础建设
WindBorne获1500万美元融资,引入AI天气模型应对气候变化
Nvidia GPU升级将大幅提升AI工具性能
MMLU-Pro:增强型基准测试推动语言理解模型的进步
Polaris Catalog:通过Apache Iceberg集成实现数据互操作性
Skywork 团队推出高性能混合专家模型 Skywork-MoE
Galileo 推出首个评估基础模型套件
█技术与研发
AI 在临床药学中的广泛应用
深度学习算法助力发现地球2.0
动物大脑启发人工智能:改变自主机器人游戏规则
谷歌利用人工智能提升个人健康和保健洞察力
尖端视觉芯片赋予机器类似人眼的感知能力
微型农作物健康传感器助力降低食品杂货成本
基于AI的HypOp框架:解决复杂组合优化问题的新突破
微软引入主动偏好引出法,优化大型语言模型在线对齐
驾驭多面人物形象:大语言模型中的可操纵性和偏见
认知心理学测试揭示人工智能的非理性思维模式
Pegasystems 将生成式 AI 扩展到流程设计和用户培训
Stability AI 推出声音生成模型“Stable Audio Open”
RelationalAI:整合知识图谱与LLM提升数据云决策力
Snowflake 广泛增强 AI 功能,推出无代码平台和新开发工具
█应用与实践
苹果如何打造更好的回收机器人
AIMath:AI 驱动的数学学习工具表现如何?
Ashby:用人工智能革新招聘流程
Discord与TuneIn合作:社交平台引入直播电台
未来的你:当“可能的你”成为“现在的你”的心灵导师
Apple Intelligence:全面革新用户互动的智能系统
用AI推进个人健康:Google的PH-LLM
Elemind:AI驱动的神经技术头带,解锁深度睡眠
市场调研中的AI革命:GetWhy从洞察到创新的旅程
Showrunner AI:用幽默感颠覆电视创作
Overdare:AI与NFT驱动的链游新时代
Dreamia.ai:重新定义游戏角色的AI引擎
Google 地图重大更新:四大新功能提升用户体验
█交叉与创新
数学心理学助力计算机理解人类情感
互动AI视频装置《REMEMBR》亮相高古轩画廊
HyperRing:革新人工智能资产保护的精密可穿戴设备
AI未来法则:揭开去中心化6079生态系统的神秘面纱
*如需定位对应内容,请使用微信的检索功能
(点击右上方三点,找到查找页面内容按钮)
政策法规与新闻
美国联邦机构为应对量子计算和人工智能的影响做好准备
为应对量子计算带来的不断演变的网络安全威胁,美国国家标准与技术研究所(NIST)宣布,将最早于2024年7月发布三种新型加密算法。白宫副国家安全顾问Anne Neuberger在最近的一份声明中详细介绍了量子计算带来的威胁,并指出其并行(而非顺序)执行计算的能力大大加快了处理速度,可能会使现有的加密系统失效。这些发展是联邦政府为迎接量子计算机的到来而持续努力的一部分。2022年,美国参议院通过了《量子计算网络安全防范法案》,该法案试图通过允许政府机构要求签约公司遵守NIST标准来解决加密技术面临的一些威胁。
2024年5月21日,美国证券交易委员会(SEC)发布声明,建议公司根据一种特殊类型的文件单独提交重大网络安全事件,即8-K表格第1.05项。SEC警告称,公司应仅将8-K表格第1.05项用于将对其财务业绩产生重大影响或投资者预计会产生重大财务影响的漏洞。与此指南相结合,SEC建议公司使用单独类型的8-K表格来自愿报告任何与非重大网络安全漏洞有关的信息。
消费者金融保护局(CFPB)也在采取措施,可能很快禁止在信用报告中记录医疗账单和其他形式的消费者财务数据。本月早些时候,CFPB负责人Rohit Chopra表示,该机构可能会对实施1970年《公平信用报告法》的规则进行多次修改。尽管三家最大的信用报告机构(TransUnion、Equifax和Experian)已经自愿从信用报告中删除了大部分医疗债务,但CFPB计划在未来几个月内将这一要求纳入法典。
https://www.jdsupra.com/legalnews/from-encryption-to-employment-u-s-3175238/
新加坡推动量子计算和绿色数据中心,助力AI发展
新加坡正通过发布大型语言模型 (LLM) 测试的国际标准以及投资于量子计算和新数据中心容量,积极在人工智能 (AI) 领域占据全球领先地位。在上周举行的亚洲科技 x 新加坡 2024 峰会上,新加坡副总理王瑞杰表示,量子计算有潜力在药物研发等领域释放新的价值,并与人工智能协同作用,提高高级AI模型开发和训练的效率,从而推动深度学习、自然语言处理和计算机视觉领域的创新。
然而,量子计算仍面临诸多挑战,包括低温冷却和误差校正的要求。全球研究人员正在探索不同的方法,以实现量子计算的规模化和商业可行性。新加坡希望通过国家量子战略应对这些挑战,并计划在未来五年内投入近3亿新加坡元(约2.22亿美元),以巩固其在量子技术开发和部署方面的领先地位。
新加坡正在建设量子处理器的设计和开发能力,涵盖光子网络、中性原子和超导电路等量子比特技术的研究,目标是在未来三年内准备好第一个原型,并在五年内扩大生产。同时,新加坡还公布了一项为期三年的计划,旨在建设一个量子安全网络,展示“加密敏捷连接”并促进公共和私人组织的试验。
此外,新加坡还推出了绿色数据中心路线图,规划“数字可持续性和绿色增长路径”,以支持AI和计算发展。该国目前拥有超过1.4千兆瓦的数据中心容量,并计划近期增加至少300兆瓦的容量,同时通过绿色能源部署再增加200兆瓦。通信和信息部高级国务部长Janil Puthucheary在峰会上表示,新加坡将努力通过硬件和软件提高数据中心效率,推动能源和容量的最大化利用,并减少应用程序的碳排放。
新加坡政府将通过补助和激励措施支持数据中心转向节能IT设备,并与信息通信媒体发展局 (IMDA) 合作,提高数据中心的用水效率。IMDA还将与行业合作伙伴共同制定标准和认证,推动电源使用效率(PUE)为1.3或更低的数据中心的开发和运营,并将在2025年前推出IT设备能源效率和液体冷却标准。
https://www.zdnet.com/article/singapore-looks-to-ai-future-with-plans-for-quantum-chip-and-data-centers/
虚假信息在社交媒体上的扩散及其影响
随着美国大选季的临近,《科学》杂志发表了两项研究,揭示了上届总统竞选期间虚假信息在社交媒体上的传播及其影响。研究表明,社交媒体上的虚假信息确实能够改变人们的想法,特别是在COVID-19疫苗问题上。当Facebook和Twitter等平台标记不准确信息为误导性信息时,这些信息的传播范围会受到限制。然而,当此类内容逃避检测时,可能会触及并影响数千万用户。
第一项研究发现,接触疫苗错误信息(2021年和2022年数据)会降低人们接种疫苗的意愿。标记错误信息的文章对疫苗犹豫的影响比未标记内容更大,但未标记的错误信息数量远远多于标记的内容。因此,尽管每篇文章的影响较小,但总体影响却很大。比如,《芝加哥论坛报》的一篇关于一名健康医生在接种新冠疫苗后死亡的报道尽管具有严重的误导性,却没有被标记为错误信息,浏览量达5500万次,是所有被标记材料总浏览人数的六倍。
第二项研究则揭示了2020年大选期间虚假信息传播的主要群体。研究人员发现,在664,391名美国选民中,仅2,107名用户传播了80%的“假新闻”。这些超级分享者主要是老年白人共和党女性。研究显示,这些用户在传播政治类虚假新闻链接方面具有巨大的网络效应,每20名美国选民中就有一名关注了其中一位超级分享者。数据显示,大约7%的政治新闻链接到似是而非的新闻网站,其中80%的链接来自这少数人。
这些超级分享者的大量推文似乎不是自动生成的,而是通过手动和持续转发生成的。研究人员将这些用户与随机抽样用户和分享非虚假政治新闻最多的用户进行了比较,发现虚假新闻传播者多为老年人、女性、白人且大多数是共和党人。
https://techcrunch.com/video/techcrunch-minute-how-misinformation-gets-amplified-on-social-media/
Databricks 收购 Tabular 以建立通用数据湖标准
分析和人工智能巨头Databricks近期宣布收购数据管理公司Tabular,具体收购金额未公开。Tabular由Blue、Weeks和Reid于2021年创立,提供基于Apache Iceberg构建的数据管理产品。Iceberg项目由Blue和Weeks在Netflix工作期间开发,后来捐赠给了Apache软件基金会。Iceberg是一种开源的高性能数据库格式,专为大数据优化数据库中的表格,同时允许数据引擎处理这些表格。
Iceberg与Databricks的Delta Lake在数据湖格式方面展开竞争。数据湖是一种用于存储大量原始数据并提供结构和管理功能的数据架构。虽然Iceberg和Delta Lake都使用Apache Parquet数据存储格式,但它们在关键方面并不兼容。然而,随着此次收购的消息公布,Databricks和Tabular承诺将努力实现共同标准。
数据湖屋市场规模巨大,根据《麻省理工技术评论》的报道,大约74%的组织都拥有数据湖屋。因此,从Databricks的角度来看,将Tabular纳入其企业家族可能是一个明智的选择。竞争数据湖屋格式较少,或者支持多种格式的平台更强,使得Databricks的平台对企业客户更具吸引力,即使这些格式不是供应商专有的。
https://techcrunch.com/2024/06/04/databricks-acquires-tabular-to-build-a-common-data-lakehouse-standard/
新研究提出更公平的人工智能决策方法
卡内基梅隆大学和史蒂文斯理工学院的研究人员在一篇新论文中展示了一种关于人工智能决策公平影响的新思维方式,旨在通过社会福利优化方法实现更公平的决策。这项研究于5月29日在瑞典乌普萨拉举行的约束规划、人工智能和运筹学集成国际会议(CPAIOR)上发表,并获得了最佳论文奖。
传统的人工智能公平性评估工具主要关注不同群体的批准率。然而,研究人员指出,这种方法可能忽略了不同群体在决策结果上的实际影响。例如,抵押贷款申请被拒对弱势群体的负面影响可能远大于对优势群体的负面影响。通过采用社会福利优化方法,人工智能系统可以做出对每个人都有更好结果的决策,尤其是对弱势群体。
这项研究的重点是“阿尔法公平”,即在公平和为每个人谋取最大利益之间寻找平衡的方法。阿尔法公平可以根据具体情况进行调整,以平衡公平和效率。研究展示了如何使用社会福利优化来比较当前在人工智能中使用的不同群体公平性评估,并将这些评估工具与经济学和工程学中的公平效率标准联系起来。
研究合著者包括卡内基梅隆大学泰珀商学院的约翰·胡克(John Hooker)教授、德里克·莱本(Derek Leben)副教授,以及史蒂文斯理工学院的维奥莱特·陈(Violet Chen)助理教授。胡克教授表示,通过这种方法,可以了解在不同情况下应用不同群体公平性工具的好处,Leben副教授则指出,社会福利优化可以解答人们热议的如何在人工智能中实现群体公平的问题。
https://techcrunch.com/2024/06/04/databricks-acquires-tabular-to-build-a-common-data-lakehouse-standard/
大模型与基础建设
WindBorne获1500万美元融资:扩展气球网络,引入AI天气模型应对气候变化
WindBorne最近获得了1500万美元的融资,用于扩大其气球星座并引入AI天气模型应对气候变化。这笔融资是在WindBorne推出基于深度学习的WeatherMesh模型三个月后进行的,WeatherMesh已取代Google DeepMind的GraphCast,成为世界上最准确的中期全球预报模型。
自2019年成立以来,WindBorne通过其全球自主、长时间大气传感气球网络执行了1000多次飞行任务,运行着地球上最全面、最具成本效益和最可持续的大气传感系统。WindBorne的气球配备了专有传感器和定制航空电子设备,可实现实时通信和导航,与传统的一次性气象气球相比,WindBorne气球每花费一美元可在陆地上收集多10倍的数据,在海洋上收集多150倍的数据。每个气球仅重几磅,并能飞行40多天,能够改变高度以收集目标数据片段,覆盖全球范围内的关键大气数据。
随着极端天气的加剧,准确的天气预报变得尤为重要。然而,全球85%的大气数据仍然缺失,WindBorne运营着唯一能够全面且经济高效地弥补这一缺口的平台。通过快速发展的AI建模技术,WindBorne在从数据收集到基于AI的建模的整个气象技术堆栈中进行了创新,具有独特的优势来转变端到端的气象情报。
WindBorne将利用新资金加速其技术堆栈的工程设计,扩大实时数据收集,完善自主飞行软件,并推进其全球基于AI的天气预报模型。该公司计划到2028年同时运行10,000个气球,实现全球覆盖。WindBorne还将扩大技术人员数量和战略收入团队,拓展商业领域和国际政府合作。
目前,WindBorne的预报服务已引起农业、物流、航空、公用事业等众多受天气影响行业的极大兴趣,并正在进行首次商业试验。WindBorne团队将“硬”工程与气象专业知识巧妙融合,致力于提供准确的天气预报以应对气候变化。
https://www.businesswire.com/news/home/20240603752107/en
Nvidia GPU升级将大幅提升AI工具性能
据报道,Nvidia 正在准备对其笔记本电脑 GPU 产品线进行重大升级。根据安全研究员 Dominic Alvieri 分享的一份明显泄露信息,即将推出的代号为“GN22”的 RTX 50 系列将提供六种不同的版本,超过目前 RTX 40 系列提供的五种版本。新的 RTX 50 系列最显著的增强是视频随机存取存储器 (VRAM) 的增加,基准从目前的 6GB 提升到 8GB。
这一升级将包括三款配备 8GB VRAM 的型号、两款配备 16GB 的型号和一款配备 12GB 的型号。这些提升将使新 GPU 能够运行更多要求大量内存资源的人工智能 (AI) 模型。例如,Stable Diffusion 1.5 至少需要 4GB VRAM 才能正常运行,而 SDXL 至少需要 6GB VRAM。
此外,泄露消息称,RTX 50 系列还将采用更快的 GDDR7 内存,进一步提高 AI 相关任务和游戏的性能。这将显著提升运行复杂 AI 模型和高性能游戏的能力,使用户能够体验更高效、更流畅的计算性能。
同时,泄露的路线图表明,Nvidia 计划继续生产一些较旧的 GPU,例如 RTX 4050 和 RTX 3050,并配备 4GB 和 6GB VRAM,以满足市场对更便宜硬件的需求。对于游戏用户来说,6GB VRAM 的卡仍然是可靠的选择,因为在许多情况下,VRAM 并不像时钟速度和处理器或核心数量那么重要。
https://decrypt.co/234675/nvidia-rtx50-leak-gpu-vram-upgrades
MMLU-Pro:增强型基准测试推动语言理解模型的进步
大型语言模型(LLM)的最新进展在自然语言处理(NLP)领域产生了深远影响,但现有基准上的表现已趋于饱和,难以区分模型能力的差异,阻碍了人工智能研究的进一步发展。为解决这一问题,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员提出了一种新的基准测试MMLU-Pro,通过纳入更具挑战性和推理密集型的任务,旨在提供更广泛和更具辨别力的评估。
MMLU-Pro基准覆盖14个不同领域,包含超过12,000个问题,问题选项从3个增加到9个,增强了测试的难度和稳健性。与现有的MMLU、GLUE、SuperGLUE和BigBench等基准不同,MMLU-Pro不仅关注知识驱动的问题,更注重推理要求,显著提高了高级语言模型的评估难度。数据集整合了来自各种高质量来源的问题,包括原始MMLU、STEM网站、TheoremQA和SciBench,以确保问题集的多样性和挑战性,并通过专家审查过程减少数据集噪音,提高问题质量。
MMLU-Pro还评估了模型在24种不同提示样式中的表现,旨在测试模型的稳健性并减少提示变异性的影响。测试结果显示,即使是最强大的模型,如GPT-4,其总体准确率也只有72.6%,而GPT-4-Turbo的准确率为63.7%,表明基准在区分模型推理能力方面的有效性。相比之下,原始MMLU的提示变异性影响最大达10.98%,而MMLU-Pro的最大影响仅为3.74%,显著提高了评估的可靠性。
https://www.marktechpost.com/2024/06/05/mmlu-pro-an-enhanced-benchmark-designed-to-evaluate-language-understanding-models-across-broader-and-more-challenging-tasks/
Snowflake发布Polaris Catalog:通过Apache Iceberg集成实现数据互操作性
Snowflake最近推出了Polaris Catalog,这是一个基于Apache Iceberg的开源目录,旨在增强跨各种引擎和云服务的数据互操作性。这一发布标志着Snowflake致力于为企业提供更多控制、灵活性和安全性,以满足其数据管理需求。
随着数据行业越来越多地采用开源文件和表格格式,提高互操作性的潜力变得显而易见。此功能允许多种技术对单个数据副本进行操作,从而降低复杂性、成本和与供应商锁定相关的风险。然而,引擎和目录之间现有的限制阻碍了这些优势的充分实现,导致数据架构师和工程师需要做出复杂的权衡。
为应对这一情况,Apache Iceberg社区开发了一个开放标准REST协议以提高互操作性。Snowflake的Polaris Catalog在此基础上提供了一种与供应商无关的存储解决方案,支持各种处理引擎和云服务,包括AWS、Google Cloud、Microsoft Azure等。
主要特点和优点 :1. 跨引擎互操作性 :Polaris Catalog实现了Iceberg的开放REST API,可与众多引擎集成,例如Apache Doris、Apache Flink、Apache Spark、PyIceberg、StarRocks、Trino以及Dremio等未来的商业选项。这使组织可以在单个数据副本上使用多个引擎,从而最大限度地降低存储和计算成本。
2. 无供应商锁定 :用户可以在Snowflake的AI数据云基础架构上运行Polaris Catalog,也可以使用Docker或Kubernetes等容器自行托管。这种灵活性确保无供应商锁定,允许用户根据需要更改其底层基础架构。
3. 增强治理和安全性 :集成Snowflake Horizon和Polaris Catalog可将列屏蔽、行访问策略和对象标记等治理功能扩展到Iceberg表。这意味着,无论Iceberg表是由Snowflake还是其他引擎在Polaris Catalog中创建的,这些治理功能都可以像原生Snowflake对象一样应用。
Polaris Catalog有望利用Apache Iceberg社区的标准,为Snowflake客户和更广泛的数据生态系统带来巨大益处。Snowflake旨在利用其运行全球跨云平台的经验以及不断壮大的Iceberg社区的贡献,不断改进Polaris Catalog。这一战略举措凸显了Snowflake致力于培育开放、可互操作的数据环境,为企业提供了有效管理数据的工具,不受供应商限制。
https://www.marktechpost.com/2024/06/04/snowflake-releases-polaris-catalog-transforming-data-interoperability-with-open-source-apache-iceberg-integration/
Galileo 推出首个评估基础模型套件 以提升生成式人工智能的评估精度
生成式人工智能评估初创公司Galileo Technologies Inc.近日宣布推出业界首个“评估基础模型”系列,这些模型经过定制,用于评估如OpenAI的GPT-4o和Google LLC的Gemini Pro等大型语言模型的性能。Luna EFM模型由Galileo开发,旨在响应人工智能行业内使用人工智能评估人工智能的实验需求。
Galileo指出,近年来,关于使用GPT-4等模型评估其他大型语言模型反应的实用性研究已经取得了令人鼓舞的进展。鉴于此,Galileo决定创建一组专用的LLM,这些模型经过专门训练以评估其他生成式AI模型的输出。Luna EFM系列就是这一工作的成果。
在Arxiv发表的论文中,Galileo解释说,每台Luna EFM都经过微调,可以执行非常具体的评估任务,例如检测“幻觉”,即人工智能系统编造其反应的情况。其他一些EFM则旨在发现数据泄露、上下文质量错误和恶意提示。
Galileo开发了用于提高AI模型准确性的工具,声称其Luna EFM模型比使用GPT-4或人类进行的标准“氛围检查”更快、更具成本效益、更准确,并且能够为企业提供大规模部署生成式AI聊天机器人所需的信心。Galileo首席执行官Vikram Chatterji在一篇博客文章中解释,企业需要能够近乎实时地评估数百甚至数千个人工智能响应,以解决幻觉、毒性和安全风险等问题。他表示,在与许多企业合作尝试解决这一挑战后,该公司得出结论,人工评估和传统的基于LLM的评估过于昂贵且缓慢。
https://siliconangle.com/2024/06/06/ai-accuracy-startup-galileos-new-llm-family-designed-evaluate-llms/
技术与研发
AI 在临床药学中的广泛应用:ASHP Pharmacy Futures 2024 的见解
在俄勒冈州波特兰举行的美国卫生系统药剂师协会 (ASHP) 2024 年药学未来大会上,佐治亚大学药学院临床副教授Andrea Sikora详细探讨了人工智能 (AI) 在临床药学中的广泛应用。Sikora指出,人工智能不仅限于如ChatGPT等热门应用,还涉及计算机处理芯片和冷却风扇等技术。她进一步解释了人工智能的范畴,包括数学和统计建模,特别是机器学习。
Sikora将人工智能定义为通过一系列技术创造能够像人类一样实现目标的智能机器的科学和工程。而机器学习则是计算机无需明确编程即可学习的能力,利用随机森林和贝叶斯网络等方法,使计算机算法能够从示例和经验(数据集)中学习,而不是依赖预先定义的硬规则。
在医疗保健领域,人工智能的应用非常广泛,包括诊断和治疗(如临床决策支持和症状分析)、计算机视觉(如心电图和脑电图的放射图像分析)、工作流程优化(如患者流程优化和检测流程效率低下)、预测模型风险分层(如再入院率、医院内感染和并发症紧急情况)、移动应用程序(如健康、心理健康和慢性病管理)、精准医疗(如基因组学)、发现(如临床试验、假设生成和概念验证)以及匹配引擎(如匹配具有相似特征的患者和具有相似成本效益比的治疗方法)。
https://www.pharmacytimes.com/view/exploring-the-expansive-role-of-ai-in-clinical-pharmacy-insights-from-ashp-pharmacy-futures-2024
深度学习算法助力发现地球2.0
最近,天文学和天体物理学杂志发表的一项研究提出了一种基于神经网络的新型算法,该算法利用径向速度 (RV) 探测方法的数据,帮助天文学家更有效地识别类似地球的系外行星。传统上,由于主恒星的恒星活动强烈,RV 数据中很难识别这些行星。而该研究的目标是通过机器学习技术解决这一问题。
研究团队表示,机器学习是处理大量科学数据的有效工具,已有许多基于机器学习的算法被提出,用于减轻恒星活动的影响,以更好地探测低质量和长周期的行星。这些算法主要分为两类:监督学习和无监督学习。监督学习的优势在于能够根据训练数据生成相对准确的预测。
在研究中,研究人员将他们的算法应用于三颗恒星:我们的太阳、半人马座 B (HD 128621)和鲸鱼座 T (HD 10700)。在算法中插入模拟行星信号后,研究人员发现他们的算法成功识别了模拟系外行星,潜在轨道周期分别为太阳10到550天、半人马座 B 10到300天、鲸鱼座 T 10到350天。半人马座 B 和鲸鱼座 T 可能拥有大约4倍于地球大小的系外行星,并位于恒星的宜居带内。
此外,算法成功识别出一颗模拟系外行星,其大小约为地球的2.2倍,轨道距离与地球相同。研究结论指出,该神经网络框架能够有效缓解光谱层面的恒星活动,从而增强对几天到几百天周期内低质量行星的探测。
虽然这项研究的重点是在RV数据中寻找类地系外行星,但研究人员指出,还可以使用其他数据(包括凌日时间、相位和太空光度测定)来识别类地系外行星。欧洲航天局的PLATO太空望远镜任务计划于2026年发射,有望在银河系内发现更多类地系外行星。
截至本文撰写时,NASA确认的系外行星数量已达到5632颗,其中包括201颗类地系外行星,这为即将到来的PLATO任务提供了充足的机会来发现更多类似地球的行星。
https://www.universetoday.com/167202/a-new-deep-learning-algorithm-can-find-earth-2-0/#google_vignette
动物大脑启发人工智能:改变自主机器人游戏规则
代尔夫特理工大学的一组研究人员开发出一种无人机,利用基于动物大脑工作原理的神经形态图像处理和控制技术自主飞行。与目前在GPU上运行的深度神经网络相比,动物大脑使用的数据和能量更少。因此,神经形态处理器非常适合小型无人机,因为它们不需要笨重的大型硬件和电池。研究显示,在飞行过程中,无人机的深度神经网络处理数据的速度比在GPU上运行时快64倍,而能耗却降低了三倍。这项技术的进一步发展可能会使无人机变得像飞行昆虫或鸟类一样小巧、灵活和聪明。
目前的人工智能依赖于需要大量计算能力的深度神经网络,处理器(GPU)消耗大量能源。对于像飞行无人机这样的小型机器人来说,这是一个问题,因为它们在传感和计算方面只能携带非常有限的资源。动物大脑处理信息的方式与GPU上运行的神经网络截然不同。生物神经元异步处理信息,主要通过称为尖峰的电脉冲进行通信。由于发送此类尖峰会消耗能量,因此大脑会尽量减少尖峰,从而实现稀疏处理。
受动物大脑这些特性的启发,科学家和科技公司正在开发新型神经形态处理器,这些处理器可以运行脉冲神经网络,具有更快、更节能的优点。脉冲神经网络执行的计算比标准深度神经网络简单得多。数字脉冲神经元只需要对整数进行加法运算,而标准神经元则必须对浮点数进行乘法和加法运算,这使得脉冲神经网络更快、更节能。
如果将神经形态处理器与神经形态传感器(如神经形态相机)结合使用,能效会进一步提高。此类相机不会以固定的时间间隔拍摄图像,而是在每个像素变亮或变暗时发送信号,可以更快地感知运动,更节能,并在各种光线条件下正常工作。神经形态相机的信号可以直接输入到神经形态处理器上运行的脉冲神经网络中,为自主机器人(尤其是小型敏捷机器人)提供巨大的推动力。
在2024年5月15日发表的《科学机器人》杂志中,代尔夫特理工大学的研究人员首次展示了一种使用神经形态视觉和控制进行自主飞行的无人机。研究团队开发了一个脉冲神经网络,处理来自神经形态摄像头的信号并输出控制命令,以确定无人机的姿势和推力。该网络部署在英特尔的Loihi神经形态研究芯片上,使无人机在不同光线条件下以不同速度飞行,验证了神经形态AI的巨大潜力。
https://www.sciencedaily.com/releases/2024/05/240515164207.htm
谷歌利用人工智能提升个人健康和保健洞察力
谷歌近期发表了一项研究,探索如何利用人工智能(AI)提升个人健康和保健洞察力。移动和可穿戴设备能够提供连续、细粒度和纵向的个人生理状态和行为数据,如步数、心率变异性和睡眠时间。这些数据可以用于个人健康监测,并激励健康行为。然而,要实现个性化的健康见解和建议,AI模型必须能够处理复杂的时间序列数据,并结合个人健康领域的知识进行情境化解释。
谷歌推出了个人健康大型语言模型(PH-LLM),这是Gemini模型的微调版本,旨在改善与睡眠和健身模式相关的个人健康行为。PH-LLM使用多模态编码器,优化了文本理解、推理以及原始时间序列传感器数据(如心率变异性和呼吸频率)的解释能力。
在洞察和建议任务中,研究团队创建了857个案例研究,这些案例研究涵盖了睡眠和健身领域,由领域专家设计,代表了现实世界的指导场景。通过使用文本表示解释时间序列生理数据,PH-LLM展示了其在理解、推理和指导方面的能力。评估结果显示,Gemini Ultra 1.0和PH-LLM在健身方面的表现与专家相当,而在睡眠方面虽然专家的建议评分更高,但PH-LLM的表现也接近,进一步微调可显著提升其能力。
此外,谷歌还提出了一个基于Gemini Ultra 1.0的个人健康洞察代理框架。该代理利用Gemini模型的强大功能,通过代理框架、代码生成和信息检索工具,迭代分析可穿戴设备数据并提供个性化解释和建议。具体功能包括:
1. 分析可穿戴设备数据 :使用Python解释器分析多维时间序列数据,识别趋势。
2. 整合健康知识 :通过搜索引擎获取最新的医疗和健康信息。
3. 提供个性化见解 :结合个人数据、医学知识和用户查询,生成定制的见解和建议。
https://research.google/blog/advancing-personal-health-and-wellness-insights-with-ai/
尖端视觉芯片赋予机器类似人眼的感知能力
随着人工智能的快速发展,自动驾驶和具身智能等无人系统在现实场景中的应用日益广泛,推动了新一轮技术革命和产业变革。视觉感知作为信息获取的核心手段,在这些智能系统中发挥着至关重要的作用。然而,在动态、多样、不可预测的环境中实现高效、精准、鲁棒的视觉感知仍是一个亟待解决的难题。
传统的视觉传感芯片因受限于“功率墙”和“带宽墙”,在处理复杂场景时常面临失真、失效和高延迟等问题,严重影响系统的稳定性和安全性。为了应对这些挑战,清华大学类脑计算研究中心(CBICR)提出了一种创新的互补传感范式。这种范式受到人类视觉系统基本原理的启发,将视觉信息分解为基于图元的视觉表征,通过组合这些图元来模仿人类视觉系统的特征,形成两条互补且信息完整的视觉感知通路。
基于这一新范式,CBICR研发了全球首款类脑互补视觉芯片——天目视觉芯片。该芯片实现了每秒10000帧的高速视觉信息采集,具有10bit精度和130dB高动态范围,同时降低了90%的带宽,保持低功耗。不仅突破了传统视觉感知范式的性能瓶颈,还能高效应对各种极端场景,保证系统的稳定性和安全性。
研究论文《一种用于开放世界感知的具有互补通路的视觉芯片》于2024年5月30日发表在《自然》杂志上。基于天目芯片,研究团队开发了高性能软件和算法,并在开放环境下运行的车载感知平台上进行了性能验证,展现出低时延、高性能的实时感知能力,在智能无人系统领域具有巨大的应用潜力。
天目芯片的成功研发是视觉感知芯片领域的重大突破,为智能化变革提供了强有力的技术支撑,并为自动驾驶和具身智能等关键应用开辟了新的途径。结合CBICR在天机等类脑计算芯片、工具链和类脑机器人等成熟技术基础,天谋科技的加入将进一步完善类脑智能生态系统,推动通用人工智能的发展。
https://techxplore.com/news/2024-06-edge-vision-chip-human-eye.html
微型农作物健康传感器助力降低食品杂货成本
一个国际工程师团队开发了一种具有红外成像功能的紧凑、轻便的传感器系统,该系统可以轻松安装到无人机上,用于远程监测农作物健康。该平面光学技术有可能取代传统光学透镜在环境感知中的应用,具有广泛的行业应用前景。
这种创新传感器系统将帮助农民精确识别需要灌溉、施肥和病虫害防治的作物,从而避免采取一刀切的方法,提高收成并降低食品杂货价格。该系统能够在边缘检测和提取详细红外信息之间快速切换,而无需创建大量数据或使用笨重的外部处理器。详细红外成像能力是这一领域的新进展,当遥传感器识别出潜在害虫侵扰区域时,农民可以收集更多相关信息。
这项研究由纽约城市大学(CUNY)、墨尔本大学、皇家墨尔本理工大学(RMIT)和ARC变革性超光学系统卓越中心(TMOS)的工程师共同完成,研究论文发表在《自然通讯》上,题为“利用相变材料的可重构图像处理超表面”。该原型传感器系统由TMOS首席研究员Madhu Bhaskaran教授及其墨尔本皇家理工大学的团队设计,系统由一层由二氧化钒材料制成的薄层滤波器组成,可以在边缘检测和详细红外成像之间切换。
Madhu Bhaskaran教授解释说,二氧化钒材料具有出色的调节能力,使设备变得“智能”。当过滤器的温度发生变化时,二氧化钒从绝缘状态转变为金属状态,从而实现图像处理模式的切换。这些材料将在未来的平面光学设备中发挥重要作用,取代传统镜头技术用于环境传感应用,使其成为无人机和卫星等需要小尺寸、轻重量和低功耗的理想选择。
RMIT已获得一项美国专利,并正在申请一项澳大利亚专利,涉及生产二氧化钒薄膜的方法,这一方法可能适用于广泛的应用领域。
https://techxplore.com/news/2024-06-tiny-crop-health-sensors-groceries.html
基于AI的HypOp框架:解决复杂组合优化问题的新突破
加州大学圣地亚哥分校的工程师团队最近发表了一项研究,展示了基于先进人工智能技术的HypOp框架,该框架能够比现有最先进的方法更快、更可扩展地解决复杂、计算密集型的组合优化问题。研究发表在《自然机器智能》上。
HypOp框架利用无监督学习和超图神经网络,显著提高了组合优化问题的解决效率。与传统方法相比,HypOp不仅速度更快,还能够解决以前方法难以应对的复杂问题。组合优化问题在现实中应用广泛,如药物发现、芯片设计、逻辑验证和物流等领域,这些问题具有广泛的变量和约束,通常因其底层搜索空间的指数增长特性而极难解决。
HypOp通过一种新的分布式算法,以更具可扩展的方式解决复杂问题。该算法允许超图上的多个计算单元并行、高效地协同工作,从而加快了问题的解决过程。HypOp引入了新的问题嵌入方法,利用超图神经网络的高阶连接优势,更好地对问题约束进行建模,并有效地找到解决方案。此外,HypOp还可以将一个问题的学习转移到其他看似不同的问题上,通过额外的微调步骤找到比现有方法更准确的解决方案。
https://techxplore.com/news/2024-06-advanced-ai-based-techniques-scale.html
微软引入主动偏好引出法,优化大型语言模型在线对齐
微软最近在机器学习领域的研究中,提出了一种用于大语言模型(LLM)在线对齐的主动偏好引出方法。传统的人类反馈强化学习(RLHF)通过优化奖励函数来使LLM与人类意图相匹配。然而,这种方法的一个挑战在于从人类反馈中推导出的奖励函数,可能会导致模型陷入局部最优。
传统的对齐方法主要分为离线和在线两种。离线对齐通过手动生成响应来覆盖各种自然语言可能性,但效果有限。相比之下,在线对齐采用迭代过程,通过从LLM采样后的反馈生成新偏好数据,帮助训练奖励模型。在线对齐的一个问题是,模型的唯一目标是从收集的数据中最大化预期奖励,这可能导致响应聚集在局部最优,出现过度拟合和过早收敛的问题。
为了克服这些挑战,微软提出了自探索语言模型(SELM)。SELM采用双层目标方法,主动调查分布之外(OOD)区域。它通过重新参数化的奖励函数解决内层问题,消除了对单独奖励模型的需求,并使用简单的目标反复更新LLM。与直接偏好优化(DPO)相比,SELM旨在提高探索效率,减少对未知外推的盲目偏爱。
实验结果表明,SELM在Zephyr-7B-SFT和Llama-3-8B-Instruct模型上的修改后,显著提高了指令跟踪基准(如MT-Bench和AlpacaEval 2.0)的性能。SELM还在不同背景下的一系列常见学术标准上表现良好,展示了其在使LLM与人类目标保持一致方面的巨大潜力。
https://www.marktechpost.com/2024/06/03/this-machine-learning-research-from-microsoft-introduces-an-active-preference-elicitation-method-for-the-online-alignment-of-large-language-models/
驾驭多面人物形象:大语言模型中的可操纵性和偏见
大语言模型(LLM)在生成多面人物角色的多样化观点方面面临挑战。以往关于LLM偏见的研究大多集中在简单、一维的人物角色或多项选择格式上。然而,许多应用需要LLM根据复杂的人物角色生成开放式文本,准确表示这些多面人物角色对于避免过度简单或有偏见的表示至关重要。
卡内基梅隆大学的研究人员将不协调的人物定义为具有不常见特征组合的人,例如支持军事支出的政治自由主义者。研究表明,与协调的人物相比,LLM对这些不协调人物的可操纵性降低了9.7%,通常会恢复到刻板的观点。使用RLHF(基于人类反馈的强化学习)微调的模型虽然更具可操纵性,但其视图多样性降低。
多项选择任务中的可操纵性并不能预测开放式可操纵性。GPT-4在与人类评估非常接近,展示了其在开放式任务中的高可操纵性评估相关性。研究强调,提升LLM对不同人物的可操纵性并产生细致入微的人类观点是当前的重要挑战。
研究进一步指出,角色引导生成中的有害输出令人担忧,模型准确性和与人类意见的一致性存在显著差异。为评估LLM对各种角色的可操纵性,研究使用皮尤研究中心的数据创建了结合人口统计和立场的多面角色,不协调的角色被定义为某些人口统计特征降低了持有某些立场的可能性。通过不同的模型大小和微调方法生成与这些角色相符的陈述来测试模型的可操纵性。
GPT-4通过将生成的陈述与给定的立场进行比较,显示出很强的可操纵性评估相关性。使用RLHF和DPO(去偏见优化)微调的模型通常更具可操纵性,尤其是针对女性和政治自由主义者。然而,模型在处理不协调的角色时仍显示出明显的可操纵性差异。模型倾向于为某些人口群体生成共同立场,导致多样性减少和刻板印象增多,这可能会加剧社会两极分化,限制模型代表复杂社会身份的能力。
https://www.marktechpost.com/2024/06/03/steerability-and-bias-in-llms-navigating-multifaceted-persona-representation/
认知心理学测试揭示人工智能的非理性思维模式
最近发表在《皇家学会开放科学》上的一项研究通过认知心理学测试评估了先进的大型语言模型(LLM)的推理能力,揭示了这些人工智能在推理过程中的非理性特征。研究由伦敦大学学院的研究人员进行,目的是在将人工智能应用于决策任务之前,深入了解其“思考”方式。
研究团队分析了七种大语言模型的理性推理能力,采用了理性智能体的常见定义,即是否根据逻辑和概率规则进行推理。非理性智能体则是不遵循这些规则进行推理的智能体。
这些大语言模型接受了12项常见的认知心理学测试,包括Wason任务、Linda问题和Monty Hall问题。研究显示,人类在这些任务上的表现普遍较低,只有14%的参与者正确回答了Linda问题,16%的参与者正确回答了Wason任务。
在测试中,模型的回答中常出现不合理之处,例如对同一问题的多次回答结果差异很大,并且模型容易犯简单错误,如基本的加法错误和将辅音误认为元音。这导致了错误的答案。例如,在Wason任务中,GPT-4的正确率为90%,而GPT-3.5和Google Bard的正确率为0%。Llama 2 70b的正确率为10%,因为将字母K误认为元音。
尽管大多数人类也无法正确回答Wason任务,但这不太可能是因为他们不知道元音是什么。研究的第一作者奥利维亚·麦克米伦-斯科特(Olivia Macmillan-Scott)表示,这些模型还没有像人类一样“思考”,但GPT-4的表现优于其他模型,表明它们正在迅速改进。然而,由于这些模型是封闭系统,很难确定它们的具体推理方式。
有些模型由于道德原因拒绝回答这些任务,尽管这些问题是无害的,这可能是因为保护参数未按预期运行所致。尽管研究人员为这些任务提供了额外的背景信息以提高反应能力,但大语言模型并未表现出持续的进步。
资深作者米尔科·穆索莱西(Mirco Musolesi)教授表示,这些模型的能力非常令人惊讶,特别是对于那些使用计算机几十年的人来说。
测试的模型包括GPT-4、GPT-3.5、Google Bard、Claude 2、Llama 2 7b、Llama 2 13b和Llama 2 70b。
https://techxplore.com/news/2024-06-cognitive-psychology-ais-irrational-humans.html
Pegasystems 将生成式 AI 扩展到流程设计和用户培训
低代码工作流自动化提供商 Pegasystems Inc. 在拉斯维加斯举行的 PegaWorld iNspire 会议上,推出了Pega GenAI Blueprint 应用程序设计即服务工具的增强功能,并引入了一种使用生成式人工智能模拟个别辅导的全新培训方法。
Pega 已将生成式 AI 融入其多款产品中。GenAI Coach 可指导员工完成复杂的流程;GenAI Knowledge Buddy 可根据企业知识库为问题提供上下文答案;GenAI Automate 可卸载日常任务;GenAI Analyze 则能从案例、数据、会议和对话中总结和提取见解。Pega GenAI Blueprint 使用设计思维概念,使人们能够将想法转化为可作为应用程序基础的交互式“蓝图”。
该产品自 2 月发布以来,其采用速度比该公司历史上的任何产品都要快。自 4 月推出以来,已有近 500 家组织创建了 30,000 多份蓝图。用户通过描述业务概念来创建应用程序设计,借鉴了 Pega 40 多年来的最佳实践,为大多数场景量身定制工作流程。
蓝图设计完成后,可以将其导入 Pega 的低代码 App Studio 并转变为可运行的应用程序。新功能使组织能够导入现有资产、内容和知识,并将在未来支持业务流程建模概念模型、通过API访问的流程文档、应用程序屏幕和完整蓝图设计等遗留输入。
在 PegaWorld iNspire 大会上,Pega 预览了一款新用户界面,能够加快和简化设计流程。该工具现在会自动生成每种案例类型背后的可编辑数据模型字段,用户可以邀请他人协作并编辑他们的蓝图。
此外,Pega 推出了 Pega GenAI Socrates,彻底改革了其培训方式。该系统创建个性化和互动式课程,采用苏格拉底式教学方法,通过对话和提问激发批判性思维。Pega GenAI Socrates 支持 10 种语言的双向文本或模拟语音对话,个性化课程以解决学生的弱点,帮助他们更好地掌握新知识。
https://siliconangle.com/2024/06/10/pegasystems-expands-generative-ai-process-design-user-training/
Stability AI 推出声音生成模型“Stable Audio Open”
Stability AI 最近推出了一种全新的 AI 模型——Stable Audio Open,该模型专门用于生成声音和音乐。该模型的训练数据集来自 Free Sound 和 Free Music Archive 的免版税录音,以确保其生成的音频内容无版权问题。Stable Audio Open 能够根据文本描述生成长达 47 秒的音频,这使其成为声音设计和音乐制作的多功能工具。
Stable Audio Open 拥有约 486,000 个免版税音乐和声音库样本的训练集,用户可以生成多种音频元素,包括乐器和鼓点、环境噪音以及用于视频、电影和电视的大多数音频制作元素。该工具的设计旨在为声音设计师、音乐家和创意专业人士提供一个开源的文本转音频资源,使他们能够通过简单的文本提示创建高质量的音频。
这一模型的推出不仅丰富了声音设计和音乐制作的工具箱,也为创意专业人士提供了更多的创作自由和可能性。Stability AI 鼓励声音设计师、音乐家、开发人员和音频爱好者下载并使用当前的 Stable Audio Open 模型,探索其功能,并向公司提供反馈,以便不断优化和改进该工具。
https://www.digitalmusicnews.com/2024/06/06/stability-ai-launches-sound-generating-model-stable-audio-open/
RelationalAI:整合知识图谱与LLM提升数据云决策力
RelationalAI 将知识图谱与大型语言模型(LLMs)集成,提供了一套强大的工具,用于增强各个领域的数据检索和决策,特别是在数据云生态系统中。知识图谱在结构化和语境化数据方面表现出色,将数据组织成实体(节点)和关系(边),使得理解复杂的相互依赖关系并快速检索相关信息变得更加容易。另一方面,LLM擅长自然语言处理(NLP),能够以高度直观的方式解释和响应查询。
RelationalAI 的协处理器现已作为原生应用在Snowflake数据云中可用,旨在提升智能决策能力。协处理器利用图分析揭示数据中的隐藏模式和关系,这对于欺诈检测、推荐系统和网络分析等任务至关重要。通过应用业务规则和优化技术,协处理器确保数据检索过程符合组织目标和约束,特别适用于金融和医疗等具有复杂监管要求的行业。
在医疗保健领域,RelationalAI 展示了其强大的应用潜力。通过将关系型AI与医疗数据集成,提供者可以开发更加个性化的治疗方案,知识图谱有助于理解复杂的患者数据,从而进行更准确的诊断和量身定制的治疗。RelationalAI 能够高效处理大量数据,确保医疗提供者能够快速访问和分析患者记录,提高医疗决策的速度和准确性,最终改善患者的治疗效果。结合区块链技术,RelationalAI 确保患者数据的安全和不可篡改,为医疗保健领域提供强大的数据完整性和隐私保护。此外,由关系型AI驱动的自动化流程可以减少行政开支,加快诊断速度和降低住院再入院率,为医疗提供者带来了显著的成本节约。
https://relational.ai/resources/five-ai-trends-from-neurips
Snowflake 广泛增强 AI 功能,推出无代码平台和新开发工具
在年度 Snowflake 峰会上,Snowflake Inc. 宣布了对其 Cortex AI 的一系列增强功能。Cortex AI 是一项托管服务,旨在让组织更轻松地在 Snowflake 数据云中发现、分析和构建人工智能应用程序。新增功能包括快速开发用于查询数据的聊天机器人、无代码交互界面、访问多个大型语言模型以及对无服务器功能的微调。
此外,Snowflake 推出了一款名为 Snowflake ML 的机器学习加速器,帮助开发人员在整个机器学习生命周期中构建、发现和管理模型和功能。此工具提供改进的 Python 支持、新的笔记本和原生可观察性功能。即将推出的 AI 驱动对象描述功能,会自动为表格和视图生成相关上下文和注释。
Cortex Analyst 基于 Meta Platforms Inc. 的 Llama 3 和 Mistral Large 模型,允许企业在 Snowflake 中的分析数据上安全地构建应用程序。Cortex Search 采用了 Snowflake 去年收购的搜索初创公司 Neeva Inc 的技术,以及 Arctic Embed 文本嵌入模型套件。这种组合允许用户构建使用矢量和文本搜索文档和其他基于文本的数据集的应用程序。
新的服务无需单独设置、集成或管理向量存储,即可构建检索增强生成或低延迟搜索。用户可以通过 Snowflake 的 AI & ML Studio 中的单一函数或无代码界面创建服务,并使用 Python API 将聊天机器人集成到任何应用程序中。Cortex Guard 利用 Meta 的 Llama Guard 基于 LLM 的输入输出保护措施来过滤和标记有害内容,以减少生成性 AI 幻觉和错误。
Snowflake 还推出了一套基于自身模型的预构建 AI 应用程序。即将推出的 Document AI 允许用户使用 Snowflake 的多模式 Arctic-TILT LLM 从文档中提取发票金额或合同条款等内容。此外,去年 11 月发布的 Copilot 将很快全面上市,结合 Mistral Large 和专有 SQL 生成模型,以改进 SQL 查询。
新的 Snowflake AI & ML Studio 是一个无代码交互式界面,目前处于私人预览阶段,旨在更快地将 AI 应用程序投入生产。Cortex Fine-Tuning 正在进入公开预览阶段,可通过 AI & ML Studio 或作为 SQL 函数访问。Meta 和 Mistral AI 模型的子集提供无服务器定制,Snowflake 基于角色的访问控制管理这些 Cortex AI 函数。
https://siliconangle.com/2024/06/04/snowflake-broadly-enhances-ai-features-adds-no-code-platform-boosts-ai-development-tools/
应用与实践
苹果如何打造更好的回收机器人
苹果公司最近推出了最新的回收机器人,以支持其在2030年前实现供应链流程碳中和的目标。这一努力不仅旨在减少废弃电子设备对环境的影响,还在一定程度上推动了美国的制造业发展。以Mac Pro的生产为例,这一项目为当地带来了约900个就业岗位,并展示了苹果公司在美国制造规模扩大的计划。
在苹果的回收设施中,利用高功率磁铁从已达到使用寿命的设备中提取金属和稀土材料。尽管大多数电子垃圾的分类工作由第三方管理设施完成,苹果仍通过自身的中等规模回收系统持续改进流程。
机器人技术在苹果的回收工作中发挥了重要作用。自从第一代机器人Liam问世以来,苹果不断改进回收技术。最新的Daisy机器人显著提高了回收效率和兼容性。与前代相比,Daisy将整体占地面积从29个机器人减少到4个主要模块,同时将材料输出流的数量从8个增加到15个。Daisy目前能够处理29种不同的iPhone型号,每年可以拆解多达120万部iPhone。
然而,尽管Daisy的表现优异,但与全球每年丢弃的1.5亿部智能手机相比,这仅是沧海一粟。联合国的数据显示,电子产品被丢弃的速度比记录的回收速度快五倍。这意味着尽管苹果在回收方面取得了显著进展,但要对全球电子废弃物产生有意义的影响,还需要更多的努力和创新。
尽管如此,苹果在机器人回收技术上的投入无疑是朝着环保目标迈出的重要一步。未来,随着更多类似Amp Robotics和Glacier等初创公司的涌现,自动化和基于人工智能的视觉系统将进一步提高回收效率,助力电子垃圾的循环利用。
https://techcrunch.com/2024/06/03/inside-apples-efforts-to-build-a-better-recycling-robot/
AIMath:AI 驱动的数学学习工具表现如何?
AIMath是一款基于网络的AI数学学习工具,提供由人工智能驱动的数学解算器和分步计算器,旨在让各个级别的用户更轻松地学习、理解和享受数学。其主要功能包括广泛的数学科目覆盖范围、照片数学解算器、带步骤的数学计算器、多语言支持、高速度和准确性以及免费使用。
AIMath的数学解算器和分步计算器涵盖了从算术到统计和概率等广泛的数学科目,无论问题属于哪种类型,AIMath都能提供准确的解决方案和详细解释。其照片数学解算器能够根据上传的图像或照片解决数学问题,并且准确率比GPT-4高出15%。此外,带步骤的数学计算器不仅提供问题的最终答案,还能详细分解计算过程,帮助用户更好地理解数学概念。
AIMath还支持超过30种语言,使全球用户能够以母语收到解决方案和解释,提高理解能力。该工具声称准确率高达99%,并能在10秒内提供解决方案,优先考虑速度和准确性,同时提供免费计划,方便学生、教育工作者及任何想要提高数学技能的人使用。
然而,AIMath也有一些潜在的缺点和局限性。首先,AIMath专注于数学问题和概念,可能无法满足寻求更全面教育体验的用户需求。其次,尽管最初是免费使用的,但免费计划可能会受到某些限制,达到使用限制或尝试访问更高级功能时,用户可能会遇到付费墙。此外,AIMath无法复制与人类导师一起工作的体验,无法适应个人学习风格或提供个性化反馈。
https://hackernoon.com/aimath-review-how-well-does-this-ai-math-solver-perform
Ashby:用人工智能革新招聘流程
Pramanik 和 Encz 推出了Ashby,这一整合现有人才招聘工具的平台,主要依靠人工智能来自动化招聘流程中重复性较强的步骤。Ashby 可以帮助创建招聘信息、寻找候选人并发送面试日历邀请,同时向利益相关者提供带有实时招聘指标的仪表板。
Encz 表示:“作为招聘经理和领导团队成员,我们知道招聘团队以外的员工很难对申请人跟踪系统 (ATS) 产生积极的体验。Ashby 的建立考虑到了所有利益相关者,因为我们相信人才是公司实现增长的最重要因素。”
Ashby 还可以根据职位描述和候选人的简历,将个性化的 AI 生成的文案插入到外联电子邮件中,并自动将候选人对电子邮件的回复分类为“感兴趣”或“不感兴趣”。除此之外,该平台还可以将整个招聘过程中收集的面试反馈汇总成招聘人员的汇报,重点引用个人面试反馈。
针对人工智能可能犯错的担忧,Encz 指出,输出结果可以进行调整,并且人工审核已内置到每个工作流程中。
自 2022 年 9 月从隐身状态中脱颖而出以来,Ashby 的客户群已发展到 1,300 多个品牌,包括 Quora、Ironclad、Vanta、Reddit 和 Lemonade。收入增长了 6 倍。Encz 表示,Ashby 的大部分收入来自基本订阅,以及更复杂的调度和分析工具的附加费用。
投资者对这些数字表示满意。本周,Ashby 完成了由 Lachy Groom 领投的 3000 万美元 C 轮融资,科技企业家 Elad Gil、F-Prime 和 Y Combinator 也参与其中,使 Ashby 的总融资额达到 7000 万美元。Encz 将 C 轮融资描述为 B 轮融资的“稳健上涨”。
“过去两年,我们的增长势头十分强劲,初创企业和企业客户的增长率都在不断提高,因此现在是加倍投入进一步产品开发和上市投资的理想时机,”他补充道。“这笔额外资金为我们提供了多年的发展空间和许多选择。”
Ashby 计划在年底前招聘约 50 名员工,扩充其旧金山总部约 100 人的团队。
https://techcrunch.com/2024/06/03/ashby-injects-recruiting-with-a-dose-of-ai/
Discord与TuneIn合作:社交平台引入直播电台
音频流媒体服务TuneIn最近与社交平台Discord达成合作,为Discord用户提供免费的直播电台服务。这是TuneIn首次与社交平台合作,预计将帮助其吸引更多受众。Discord拥有庞大的2亿用户群,而TuneIn目前则拥有7500万月活跃用户。
此次合作推出了名为“TuneIn Radio & Podcasts”的集成服务,包括TuneIn的完整库,内含10万个本地AM/FM电台、新闻、播客和体育内容。此外,该服务还为Discord用户特别策划了音乐合集,涵盖K-pop、Lofi和Indie等类型的电台。
TuneIn首席执行官Rich Stern在接受TechCrunch采访时表示:“Discord的体验经过精心策划。”他还补充说,这是Discord的Activity应用目录中首次提供纯音频娱乐选项。
通过这次合作,Discord用户可以在平台内直接访问丰富的音频内容,增强了平台的互动性和多样性。TuneIn也借此机会扩大了其在年轻用户中的影响力,进一步巩固其市场地位。
https://techcrunch.com/2024/06/04/discord-and-tunein-partner-to-bring-live-radio-to-the-social-platform/
未来的你:当“可能的你”成为“现在的你”的心灵导师
在一项名为《Future You: The AI Therapist You Didn't Know You Needed》的突破性研究中,研究人员揭示了一种新的心理健康和自我感知方法。研究发现,与AI生成的未来自我对话的参与者,其焦虑和负面情绪显著减少,因为过程中减去了评判和不请自来的建议。参与者感觉与未来的自己更加紧密相连,这可以成为促使积极生活变化的强大动力。
AI作为治疗工具,通过模拟未来情景并提供个性化反馈,帮助个体以更清晰的未来视角来应对当前的挑战。这项研究通过关注未来自我对话增添了独特的角度,传统治疗通常涉及反思过去的经历,而这种方法则将焦点前移,鼓励个体展望并努力实现更好的未来。通过分析个体数据,AI可以定制对话以解决特定的焦虑和目标。
然而,AI治疗师也引发了关于隐私、同意和潜在滥用的重要伦理问题。确保这些AI系统设计有严格的伦理准则来保护用户至关重要。研究中提到的伦理考量提醒我们,尽管AI在心理健康领域具有巨大的潜力,但在实际应用中必须谨慎行事。
根据2011年的研究论文《Future self-continuity: how conceptions of the future self transform intertemporal choice》,未来的我是由今天的我所决定的,假如我不喜欢未来的我的样子,那么就可以立足当下做出改变。尽管产品理念美好,但也面临自我分裂的危机——我是否愿意接受这个未来的虚拟的我,以及假如这个我很像我,那么是否意味着世界上有两个我?而且这个我还能对现在的我指手画脚?
https://arxiv.org/abs/2405.12514
Apple Intelligence:全面革新用户互动的智能系统
苹果最近推出了一款名为Apple Intelligence的创新产品,这一系统旨在革新用户与iPhone、iPad和Mac的互动方式。Apple Intelligence结合了强大的生成模型和个人上下文,深度嵌入在iOS 18、iPadOS 18和macOS Sequoia中,提供高度相关且实用的智能服务。借助苹果硅芯片,该系统在语言和图像理解方面表现出色,简化了任务处理,并通过设备上的处理和私人云计算确保用户隐私。
在语言和通信方面,Apple Intelligence引入了新的写作工具,允许用户在邮件、备忘录和Pages等应用中重写、校对和总结文本。系统还优先处理紧急邮件并提供智能回复,使用户更容易管理收件箱;增强的通知功能则帮助用户专注于重要事项。
在图像创作和表达方面,用户可以创建动画、插图或素描风格的图像,甚至可以根据消息中的对话生成个性化图像。这些功能还集成到备忘录、Keynote和Pages等应用中,增强了文档的视觉吸引力。此外,Apple Intelligence的Genmoji功能允许用户根据描述或朋友和家人的照片创建自定义表情符号,用作消息中的贴纸或反应,增加数字通信的个人色彩。
照片应用也得到了显著增强,支持自然语言搜索,使查找特定照片和视频片段变得更容易。新的清理工具可以从照片中移除干扰物,并根据描述选择最佳的照片和视频,编排成具有叙述弧线的电影,用户还可以从Apple Music中获得与记忆匹配的歌曲建议。
https://developer.apple.com/apple-intelligence/
用AI推进个人健康:Google的PH-LLM
Google推出了一款名为PH-LLM的个人健康大语言模型,这是Gemini Ultra 1.0的精细调整版本,旨在解释和提供个人健康数据的见解,特别关注睡眠和健身。PH-LLM作为一个专门的工具,旨在弥合临床数据与可穿戴设备收集的个人健康指标之间的差距。通过精细调整,该模型能够理解和推理来自Fitbit和Pixel Watch等设备的数值时间序列数据。
PH-LLM的主要功能包括个性化见解和建议。模型在睡眠和健身方面使用了857个案例研究进行评估,这些案例是与领域专家合作设计的。在健身方面,PH-LLM的表现与人类专家相当,而在睡眠方面,经过精细调整后的表现显著提高。此外,模型在睡眠医学和健身的多项选择题测试中分别得分79%和88%,不仅超过了人类专家的平均分数,还达到了继续医学教育学分的基准。
PH-LLM还能通过整合文本和多模态传感器数据来预测自我报告的睡眠质量结果。可穿戴设备的数据被存储为一个矩阵,其中行代表测量设备,列代表特定时间的测量值。每个样本的数据包括20个设备测量值,测量周期为15天。研究人员计算了这些数据的均值和方差,并使用训练数据作为参考进行标准化处理,生成了一个新的“编码”矩阵,其中列对应于测量值的均值和方差。
编码后的数据矩阵通过一个多层感知器适配器投影到PH-LLM的词嵌入空间。适配器有三个隐藏层,大小分别为1024、4096和1024,输出为一组词嵌入。这些词嵌入作为前缀提供给PH-LLM,结合文本输入进行预测,模型通过反向传播进行训练,同时保持PH-LLM的权重不变。
Google通过PH-LLM展示了如何将可穿戴设备的数据标准化并与大语言模型进行适配,在保持模型权重的前提下进行训练,为大健康领域的应用提供了新的参考方法。结合可穿戴设备的非临床健康监测与数据运算,PH-LLM有望成为大健康ToC业务的主战场。
https://arxiv.org/abs/2406.06474
Elemind:AI驱动的神经技术头带,解锁深度睡眠
Elemind凭借其创新的神经技术头带成为了引领潮流的先锋,这款设备有望彻底改变我们对待睡眠的方式,提供“随时睡眠”的诱人可能性。Elemind的头戴设备通过EEG(脑电图)传感器实时监测脑电波,能够根据用户的当前脑状态动态利用AI算法调整刺激参数,从而实现更精确和有效的脑波调节。
Elemind使用骨传导技术,通过声音脉冲直接影响脑波,能够在不干扰用户的情况下引导脑波进入所需的状态,如深度睡眠。其AI算法在大量EEG记录数据集上进行训练,使其能够识别与不同大脑状态相关的模式;当你戴上头带并按下“睡眠”按钮时,AI开始工作,分析你的脑电波,并调整电刺激以引导你的大脑进入所需状态。
Elemind 的新兴 AI Sleep Tailor 功能可根据个人睡眠模式、大脑活动和用户反馈,使系统随着时间的推移变得更加有效。这款头带的电池续航时间长达一整晚,白天可使用 USB-C 线充电。Elemind设计轻便,重量仅约60克,且采用柔软的橡胶和织物材料,适合各种睡眠姿势,用户体验更佳。
Elemind经过多次临床试验验证,显示出显著的睡眠改善效果,如缩短入睡时间和提高睡眠质量。可以将其比作拥有一位私人睡眠DJ,知道播放哪些曲调(在这种情况下是电脉冲)来让你进入状态。Elemind的设备通过声音脉冲进行非侵入性刺激,避免了深脑刺激可能带来的风险,且其刺激强度在自然范围内,安全性较高。
Elemind还在探索其技术在其他健康领域的应用,如记忆巩固和疼痛管理。目前市场上的睡眠产品价值超过1000亿美元。Elemind 的深度睡眠刺激功能是一种旨在增加深度睡眠时间并提高睡眠质量的神经刺激功能,将于今年晚些时候通过固件更新推出。
https://drive.google.com/file/d/16IehlDJ3xgTUxclp_E4lCjsVT5jiRHtJ/view
市场调研中的AI革命:GetWhy从洞察到创新的旅程
凭借最近获得的3450万美元A轮融资,GetWhy正准备通过其创新的AI平台重新定义市场研究。该平台通过分析视频访谈,提取消费者洞察,以解决传统社交聆听工具在上下文、情感准确性以及捕捉细微消费者洞察方面的局限性。GetWhy 的 Agile Qual 方法利用AI分析视频访谈中的定性数据,有效解决了这些不足。
通过AI驱动的StudyBuilder,GetWhy实现了研究的民主化。StudyBuilder通过自动化设计和执行研究,使各种规模的企业能够利用定性洞察,而无需专业知识。这种民主化是一场游戏规则的改变,使更多的组织能够做出数据驱动的决策。
过去,企业中的洞察角色主要集中在生产——收集和报告数据。而通过提供不仅收集数据,还解释和应用数据的工具,GetWhy使企业能够战略性地使用洞察。这种从生产到利用的转变,意味着洞察不再只是研究的副产品,而是商业策略的重要组成部分。
GetWhy通过优先考虑“为什么”而不是“怎么做”,专注于理解消费者行为背后的原因,确保他们的AI解决方案不仅技术先进,而且深切符合用户需求。这种围绕解决问题而非追赶技术趋势的策略,使GetWhy的AI平台不仅在技术上领先,而且真正满足了市场调研的实际需求。
通过视频内容分析视频中人物的情绪,理解上下文,捕捉细微的动作或表情背后的含义,这样的工具的价值已超越了狭隘的市场调研范畴,有着广阔的应用前景。AI深入市场调研领域并影响决策的相关产品,正在悄然出现,这也预示着市场调研的未来趋势。
https://getwhy.io/
Showrunner AI:用幽默感颠覆电视创作
The Simulation(前身为Fable Studio)推出了一款名为Showrunner AI的创新平台,让观众仅用几句话就能成为电视节目创作者。Showrunner AI的诞生源自于创造AI生成的《南方公园》集数的创意团队。这个平台允许用户使用人工智能生成自己的电视节目,只需一个10到15字的简单提示。系统处理从对话、配音到编辑和镜头类型的所有内容,为有抱负的节目创作者提供无缝的体验。
Showrunner AI展示了多样化的节目阵容,包括《Exit Valley》这样讽刺硅谷的喜剧,《Pixels》讲述Sim Francisco的AI设备生活的家庭喜剧,以及《Ikiru Shinu》聚焦全球灾难幸存者的黑暗恐怖动漫等。其他节目还包括《What We Leave Behind》、《United Flavors of America》、《The Prize》、《Hutzpa!》、《Sim Francisco》、《Shadows over Shinjuku》和《Thistle Gulch》。
这项技术由SHOW-1模型和AI Showrunner Agents提供支持,能够编写、制作、导演、选角、编辑、配音和动画化剧集。Showrunner AI通过《南方公园AI》的九集展示,包括22分钟的《Westland Chronicles》,后者获得了超过800万次观看,展示了其技术奇迹。
然而,Showrunner AI目前尚不适合制作像《绝命毒师》或《权力的游戏》那样长篇复杂的故事情节,但擅长创作角色在每集基本重置的剧集,如情景喜剧、警匪剧和太空探索系列。
尽管目前官网上没有成型Demo,但从油管上的物料来看,《南方公园AI》相当惊艳,其他尚未成型的内容也让人对未来充满期待。专业团队加持下的制作成本、人员规模和周期仍有待观察,但总体来看,AI娱乐已来,未来发展潜力巨大。
https://www.youtube.com/watch?v=_9mces4HKNM
Overdare:AI与NFT驱动的链游新时代
PUBG的创造者Krafton推出了一个突破性的游戏平台——Overdare。这一平台不仅是对游戏世界的补充,更是通过整合先进的AI工具和NFT(非同质化代币),实现了重大飞跃。Overdare是一个元宇宙合资公司,旨在提供AI驱动的内容创作和基于NFT的资产管理,为玩家在虚拟世界中提供前所未有的控制和创造力。
在AI驱动的创意方面,Overdare的先进AI工具使玩家能够轻松创建和自定义游戏内的资产。这些工具利用生成式AI,允许用户设计角色、环境和其他游戏元素,无需广泛的技术知识。这种游戏开发的民主化可能会导致用户生成内容的激增,促进更为活跃和多样化的游戏生态系统。
NFT和数字所有权是Overdare的另一大特色。平台整合了NFT,引入了数字所有权和货币化的新维度,玩家可以创建、购买、出售和交易独特的游戏内物品,确保他们的创作具有现实世界的价值。这不仅增强了游戏体验,还为开发者和玩家开辟了新的收入来源。区块链技术的使用确保了这些数字资产的真实性和稀缺性,使其在游戏社区中高度受欢迎。
战略合作伙伴关系也为Overdare提供了强有力的支持。与Kinetix和Circle等公司的合作旨在整合生成式AI并促进IP交易和USDC支付的无缝进行,这些合作预计将进一步巩固Overdare在元宇宙和游戏行业中的领导地位。
https://www.krafton.ai/en/
Dreamia.ai:重新定义游戏角色的AI引擎
Today公司推出的Dreamia.ai是一款AI驱动的社交模拟游戏引擎,不仅代表了技术上的突破,更对游戏体验进行了全面革新。Dreamia.ai引擎的核心在于其能够创建智能、互动式的非玩家角色(NPC),这些NPC能够根据玩家的行为和决策进行动态调整。通过先进的机器学习算法,NPC可以学习玩家的互动模式,在未来的互动中表现出更为复杂和个性化的反应。
在自然语言处理(NLP)方面,Dreamia.ai使对话更加自然流畅,无论是简单的问候还是复杂的任务对话,NPC都能给出恰当的回应,甚至可以进行幽默的交流。情感识别与响应功能使得NPC能够根据玩家的情绪进行相应的互动,例如在玩家沮丧时提供安慰或建议,在玩家兴奋时分享喜悦,这种情感上的互动大大增强了游戏的沉浸感。
此外,程序化生成技术不仅增加了游戏角色的多样性,还减少了开发者在角色设计上的工作量,使他们能够将更多精力投入到游戏的其他方面。Dreamia.ai的这些技术特点使得玩家参与度大幅提升,开发成本降低,并吸引了更广泛的受众。通过创建多样和个性化的NPC,能够吸引来自不同背景和文化的玩家,每个玩家都能在游戏中找到与自己产生共鸣的角色,从而提升游戏的全球吸引力。
在微软背景的Inworld率先进入游戏NPC领域的前提下,Dreamia.ai的出现说明了这一领域的发展潜力巨大、需求旺盛。尽管目前大量游戏引擎项目仍在研发中,还没有特别优质的成型产品面世,但Dreamia.ai无疑为游戏行业带来了新的希望和创新。
https://www.todaythegame.com/
Google 地图重大更新:四大新功能提升用户体验
在谷歌年度 I/O 大会上,公司宣布将对Google地图进行重大更新,这次重新设计将整合谷歌的生成式人工智能聊天机器人Gemini。此次更新主要关注谷歌在人工智能方面的进步,使Google地图成为其搜索功能和性能更新的主要平台之一。部分功能已经整合,其他功能尚待发布。
首先,Google推出了Places AI服务,该服务通过多种方式接受HTTP位置数据请求,并返回有关机构、地理位置或著名景点的格式化位置数据和图像。现今,Google将Gemini应用于Places AI,消除了企业主撰写地点描述的需要。Gemini的Places AI不仅提供详细的地点信息,还包括周边购物、餐馆等设施的信息,以及这些地点的步行距离。例如,汽车修理厂可以列出最近的电动汽车充电口,咖啡馆可以标明离最近的海滩的距离。用户还可以在搜索结果中立即查看照片和评论,而无需点击进入单个地点。
其次,Google Earth中的照片级逼真的3D地图功能将被整合到Google地图和Google街景中,成为首选。这一切都是通过JavaScript API构建的,沉浸式视图(Immersive View)允许用户倾斜、放大并查看某个位置的鸟瞰图。无论用户的目的是什么,这种照片级逼真的3D地图都能提供更为身临其境的体验。
第三,Gemini聊天机器人将帮助用户解答问题,并在互联网上找到所需的特定项目。它会总结搜索内容,并以易于理解的方式呈现信息。将Gemini技术融入Google地图的搜索功能,将使用户更快地规划行程。Gemini不仅会利用互联网搜索特定地点,还会查看Google地图上的评论和照片,为用户提供最佳的信息。
最后,谷歌宣布发布React Google Maps Library。React是一个JavaScript库,帮助构建用户界面,很多应用程序如Facebook、Instagram、Netflix、WhatsApp和Dropbox等都使用它来构建应用程序的外观和用户交互方式。
https://www.pocket-lint.com/google-maps-features-changes-redesign/
交叉与创新
数学心理学助力计算机理解人类情感
芬兰于韦斯屈莱大学的研究人员利用数学心理学原理开发出了一种新模型,使计算机能够解释和理解人类情感。这一进步显著改善了人类与智能技术(包括人工智能系统)之间的界面,使其更加直观且能响应用户的感受。研究成果发表在《计算机系统人为因素 CHI 会议论文集》上。
认知科学...