大家好,我是Jack Bytes,一个专注于将人工智能应用于日常生活的程序猿,平时主要分享AI、NAS、开源项目等。
在当今信息爆炸的时代,如何高效地从海量的网络信息中获取所需内容成为了一项极具挑战的任务。
WebAgent 项目的出现,无疑为解决这一难题提供了强有力的支持。
它由 Tongyi Lab、Alibaba Group 打造,旨在为信息搜索提供更加智能、高效的解决方案。
下面就让我们一起深入了解这个项目(项目地址可以在文末找到)
一、介绍
WebAgent 是由 Tongyi Lab、Alibaba Group 构建的用于信息搜索的项目。它整合了WebSailor、WebDancer和WebWalker等多个组件,每个组件都有其独特的功能和优势。
- WebSailor:一种完整的后训练方法,旨在教导大语言模型(LLM)代理进行复杂的网络导航和信息搜索任务,能够应对信息环境中的极端不确定性,在一些困难的浏览基准测试中达到了开源模型的最优水平。
- WebDancer:提出了一种新颖的端到端代理训练框架,通过四阶段训练范式,增强了基于网络的代理的多步信息搜索能力,在 GAIA 和 WebWalkerQA 等基准测试中表现出色。
- WebWalker:构建了具有挑战性的基准 WebWalkerQA,利用多智能体框架进行有效的内存管理,以应对需要长上下文的网络导航任务。
二、功能特性
WebSailor
- 后训练方法:使模型能够进行扩展思考和信息搜索,完成之前被认为无法解决的极其复杂的任务。
- 高质量数据集:引入 SailorFog - QA,这是一个具有高不确定性和难度的可扩展问答基准,通过图采样和信息混淆的新型数据合成方法精心策划。
- 高效训练流程:有效的后训练管道,包括从专家轨迹进行高质量的简洁推理重建以进行清晰的监督,以及两阶段训练过程,包括RFT冷启动阶段和Duplicating Sampling Policy Optimization(DUPO)。
- 优异性能:WebSailor-72B显著优于所有开源代理和框架,缩小了与领先专有系统的性能差距。
WebDancer
- 自主搜索推理:使用 ReAct 框架的原生代理搜索推理模型,朝着自主信息搜索机构和类似 “深度研究” 的模型发展。
- 四阶段训练范式:包括浏览数据构建、轨迹采样、监督微调以实现有效的冷启动,以及强化学习以提高泛化能力,使代理能够自主获得强大的搜索和推理技能。
- 数据中心方法:集成轨迹级监督微调(SFT)和强化学习(DAPO),开发出通过 SFT 或 RL 训练代理系统的可扩展管道。
- 优秀表现:在 GAIA 上的 Pass@3 得分为 64.1%,在 WebWalkerQA 上的得分为 62.0%。
WebWalker
- 挑战性基准:构建了由来自四个现实场景的 680 个查询组成的 WebWalkerQA 基准,涵盖了超过 1373 个网页。
- 多智能体框架:提出 WebWalker,利用多智能体框架进行有效的内存管理,以应对需要长上下文的网络导航任务。
- 实验验证:大量实验表明,WebWalkerQA 具有挑战性,并且对于信息搜索任务,页面内的垂直探索是有益的。
三、安装
WebDancer
步骤 0:设置环境
conda create -n webdancer python=3.12
pip install -r requirements.txt
步骤 1:部署模型
从**HuggingFace下载WebDancer模型,并使用提供的脚本和Sglang**进行部署。
cd scripts
bash deploy_model.sh WebDancer_PATH
注意:将WebDancer_PATH替换为下载模型的实际路径。
步骤 2:运行演示
编辑
WebDancer/scripts/run_demo.sh中的以下密钥:
- GOOGLE_SEARCH_KEY
- JINA_API_KEY
- DASHSCOPE_API_KEY
然后,使用 Gradio 启动演示以与 WebDancer 模型进行交互:
cd scripts
bash run_demo.sh
WebWalker
环境设置
conda create -n webwalker python=3.10
git clone https://github.com/alibaba - nlp/WebWalker.git
cd WebWalker
# 安装依赖
pip install -r requirements.txt
# 运行安装后设置
crawl4ai - setup
# 验证安装
crawl4ai - doctor
本地运行演示
在运行之前,需要将 OPENAI API 密钥或 Dashscope API 密钥导出为环境变量:
export OPEN_AI_API_KEY=YOUR_API_KEY
export OPEN_AI_API_BASE_URL=YOUR_API_BASE_URL
或者
export DASHSCOPE_API_KEY=YOUR_API_KEY
然后,使用 Streamlit 运app.py 文件:
cd src
streamlit run app.py
四、总结
WebAgent 项目凭借其强大的功能和创新的方法,为网络信息搜索和处理提供了一个全面而高效的解决方案。
WebSailor、WebDancer 和 WebWalker 三个组件相互协作,各自发挥独特的优势,能够应对不同类型和难度的信息搜索任务。
无论是对于研究人员还是开发者来说,WebAgent 都具有很高的参考价值和应用前景。通过提供详细的安装和使用指南,项目也为用户的实际操作提供了便利。
随着技术的不断发展,相信 WebAgent 项目将不断完善和优化,为用户带来更加出色的信息搜索体验。
项目地址:
https://github.com/Alibaba-NLP/WebAgent
我是Jack Bytes
一个专注于将人工智能应用于日常生活的半吊子程序猿!
平时主要分享AI、NAS、Docker、搞机技巧、开源项目等技术,喜欢的话请关注吧!