2025-04-02
折腾
00

目录

试用的五个 AI 深度研究工具
测试提示词
各家 AI 深度研究报告对比
各家 AI 深度研究功能使用体验
总结

试用的五个 AI 深度研究工具

  • 秘塔 AI ,研究模式 + DeepSeek-R1 + 先想后搜 + 学术库;
  • Grok,DeeperSearch;
  • Gemini,DeepResearch;
  • 智谱清言,AutoGLM 沉思 + Chrome + AutoGLM 扩展;
  • 智谱清言,ChatGLM,沉思模式。

测试提示词

秘塔 AI、Grok、Gemini、ChatGLM 自身具备搜索功能,提示词如下:

你是一个化工专业科研工作者,主要研究领域是固体废物的资源化利用,阅读大量文献,详述电石灰渣的资源化利用技术及原理。

AutoGLM 采用操作浏览器进行网页搜索、阅读的办法,所以提示词添加了目标信源,如下。

你是一个化工专业科研工作者,主要研究领域是固体废物的资源化利用,阅读大量PubMed、cell、science、nature、知网上的文献,详述电石灰渣的资源化利用技术及原理。

各家 AI 深度研究报告对比

智谱的 AutoGLM 沉思运行不太稳定,试了两次都是未完成就结束运行了,所以没有结果。

其他四个都出了完整研究报告。

测试日期为 20250401。

项目秘塔 AIGrokGeminiChatGLM
总字数1297221270744904
知识点广度还行,相关知识点都有还行,少了电石灰渣组分,多了技术对比较丰富,相关知识点都有,且划分更细丰富,比其他还多了社会经济影响
知识点深度一般,论述简洁一般,论述较简洁深入,论述较详细一般,非技术部分套话较多
结构合理度合理合理合理合理
知识准确度一般,有明显偏离主题的内容较好,大致一看无明显错误较好,大致一看无明显错误较好,大致一看无明显错误
参考文献量127搜索了 31 个,但只引用了 3 个搜索到 156 个,引用 96 个搜索到至少 45个,引用 11 个
排版美观度好,图文并茂好,有表格好,纯文字好,纯文字
导出格式复制 Markdown,导出Docx、PDF复制 Markdown复制 Markdown,导出至 Google 文档中可进一步导出其他格式复制 Markdown

各家 AI 深度研究功能使用体验

AI 深度研究是否可在浏览器运行是否需要特殊网络条件是否免费特点不足
秘塔 AI是,限值100次/天可指定搜索文献库而不是互联网,保证参考资料的质量。
先想后搜模式会先规划好报告大纲,然后搜索资料,再写报告。
幻觉稍微有点多,即使用 DS-R1。
Grok是,限值 5 次/天模型本身中文能力很强,且自我审查少。
思考与搜资料交替进行,互相影响,逐步完善内容。
测试中可能提示词主题与某一篇资料强相关,大部分内容引用该资料,导致找到了很多资料但引用的只有几个。
思考过程有点信马由缰,容易被某一个信息点带偏。
Gemini是,限值 5 次/月Google 本行干搜索,在获取资料方面非常强。
思考与搜资料交替进行,互相影响,逐步完善内容。
免费次数少。
最终生成的报告是英文的,但思考过程是中文。
AutoGLM 沉思否,需要桌面应用+Chrome 扩展否,但访问某些网站需要是,目前不限量可以操作浏览器,能干的事就不只搜资料写报告了。
思考与搜资料交替进行,互相影响,逐步完善内容。
运行不稳定,试用了两次都没最终生成报告。
目前只能用 Chrome 浏览器。
底层推理模型弱于其他。
ChatGLM是,目前不限量思考与搜资料交替进行,互相影响,逐步完善内容。搜索及获取资料能力较弱。
底层推理模型弱于其他。

总结

针对测试案例,Gemini 生成的深度研究报告各方面总体最好,其次 ChatGLM 和 Grok 稍差,秘塔 AI 采用学术库生成的基本算大纲简介,还不到一份报告的程度。

获取高质量资料的能力对 AI 深度研究十分重要。 打个比方,智力差不多的研究生写综述论文,参考中英文 SCI 文献的,肯定比参考中文核心的,写出来的质量高。

资料检索获取方面,Google 有先天优势。因此,有条件优先推荐 Gemini 做深度研究。

智谱的 AutoGLM 沉思需要配合使用桌面端应用和 Chrome 扩展,软件安装对于大部分玩惯手机的用户可能门槛有点高。并且测试中运行不稳定,未生成报告。但运行过程挺惊艳的,看着浏览器自动打开网页搜索,感觉真得有个 AI 帮你干活。AutoGLM 应该是朝着通用 AI Agent 发展,所以功能不只写报告。

智谱的 ChatGLM 『沉思』功能就是深度研究,底层推理模型应该是 GLM-Zero,随比不上 DeepSeek-R1,效果比智谱之前好得多。DeepSeek-R1 出世之前,最常用智谱。智谱被老美制裁,希望不要影响以后的模型发展。

以上测试结果,仅针对单一案例的个人体验,不一定全面准确。 实际选择工具,推荐先根据自我需求测试下。或者每个都用,选生成结果最好的。

据说 ChatGPT 的深度研究也很厉害。我是免费用户,目前用不了,以后有机会测。

本文作者:tsingk

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!