秘塔 AI、Grok、Gemini、ChatGLM 自身具备搜索功能,提示词如下:
你是一个化工专业科研工作者,主要研究领域是固体废物的资源化利用,阅读大量文献,详述电石灰渣的资源化利用技术及原理。
AutoGLM 采用操作浏览器进行网页搜索、阅读的办法,所以提示词添加了目标信源,如下。
你是一个化工专业科研工作者,主要研究领域是固体废物的资源化利用,阅读大量PubMed、cell、science、nature、知网上的文献,详述电石灰渣的资源化利用技术及原理。
智谱的 AutoGLM 沉思运行不太稳定,试了两次都是未完成就结束运行了,所以没有结果。
其他四个都出了完整研究报告。
测试日期为 20250401。
项目 | 秘塔 AI | Grok | Gemini | ChatGLM |
---|---|---|---|---|
总字数 | 1297 | 2212 | 7074 | 4904 |
知识点广度 | 还行,相关知识点都有 | 还行,少了电石灰渣组分,多了技术对比 | 较丰富,相关知识点都有,且划分更细 | 丰富,比其他还多了社会经济影响 |
知识点深度 | 一般,论述简洁 | 一般,论述较简洁 | 深入,论述较详细 | 一般,非技术部分套话较多 |
结构合理度 | 合理 | 合理 | 合理 | 合理 |
知识准确度 | 一般,有明显偏离主题的内容 | 较好,大致一看无明显错误 | 较好,大致一看无明显错误 | 较好,大致一看无明显错误 |
参考文献量 | 127 | 搜索了 31 个,但只引用了 3 个 | 搜索到 156 个,引用 96 个 | 搜索到至少 45个,引用 11 个 |
排版美观度 | 好,图文并茂 | 好,有表格 | 好,纯文字 | 好,纯文字 |
导出格式 | 复制 Markdown,导出Docx、PDF | 复制 Markdown | 复制 Markdown,导出至 Google 文档中可进一步导出其他格式 | 复制 Markdown |
AI 深度研究 | 是否可在浏览器运行 | 是否需要特殊网络条件 | 是否免费 | 特点 | 不足 |
---|---|---|---|---|---|
秘塔 AI | 是 | 否 | 是,限值100次/天 | 可指定搜索文献库而不是互联网,保证参考资料的质量。 先想后搜模式会先规划好报告大纲,然后搜索资料,再写报告。 | 幻觉稍微有点多,即使用 DS-R1。 |
Grok | 是 | 是 | 是,限值 5 次/天 | 模型本身中文能力很强,且自我审查少。 思考与搜资料交替进行,互相影响,逐步完善内容。 | 测试中可能提示词主题与某一篇资料强相关,大部分内容引用该资料,导致找到了很多资料但引用的只有几个。 思考过程有点信马由缰,容易被某一个信息点带偏。 |
Gemini | 是 | 是 | 是,限值 5 次/月 | Google 本行干搜索,在获取资料方面非常强。 思考与搜资料交替进行,互相影响,逐步完善内容。 | 免费次数少。 最终生成的报告是英文的,但思考过程是中文。 |
AutoGLM 沉思 | 否,需要桌面应用+Chrome 扩展 | 否,但访问某些网站需要 | 是,目前不限量 | 可以操作浏览器,能干的事就不只搜资料写报告了。 思考与搜资料交替进行,互相影响,逐步完善内容。 | 运行不稳定,试用了两次都没最终生成报告。 目前只能用 Chrome 浏览器。 底层推理模型弱于其他。 |
ChatGLM | 是 | 否 | 是,目前不限量 | 思考与搜资料交替进行,互相影响,逐步完善内容。 | 搜索及获取资料能力较弱。 底层推理模型弱于其他。 |
针对测试案例,Gemini 生成的深度研究报告各方面总体最好,其次 ChatGLM 和 Grok 稍差,秘塔 AI 采用学术库生成的基本算大纲简介,还不到一份报告的程度。
获取高质量资料的能力对 AI 深度研究十分重要。 打个比方,智力差不多的研究生写综述论文,参考中英文 SCI 文献的,肯定比参考中文核心的,写出来的质量高。
资料检索获取方面,Google 有先天优势。因此,有条件优先推荐 Gemini 做深度研究。
智谱的 AutoGLM 沉思需要配合使用桌面端应用和 Chrome 扩展,软件安装对于大部分玩惯手机的用户可能门槛有点高。并且测试中运行不稳定,未生成报告。但运行过程挺惊艳的,看着浏览器自动打开网页搜索,感觉真得有个 AI 帮你干活。AutoGLM 应该是朝着通用 AI Agent 发展,所以功能不只写报告。
智谱的 ChatGLM 『沉思』功能就是深度研究,底层推理模型应该是 GLM-Zero,随比不上 DeepSeek-R1,效果比智谱之前好得多。DeepSeek-R1 出世之前,最常用智谱。智谱被老美制裁,希望不要影响以后的模型发展。
以上测试结果,仅针对单一案例的个人体验,不一定全面准确。 实际选择工具,推荐先根据自我需求测试下。或者每个都用,选生成结果最好的。
据说 ChatGPT 的深度研究也很厉害。我是免费用户,目前用不了,以后有机会测。
本文作者:tsingk
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!