GPT-5 和由 OpenAI 开发的新网络爬虫 GPTBot。

我认为那不会很久 OpenAI 它还将在基于人工智能的搜索引擎的开发中发挥作用。新的 web crawler GPTBot cu modeGPT-5 广泛语言已经发布。

那些使用 ChatGPT 我知道这个 model 广泛的语言（LLM) 当前正在运行 GPT-3.5，正在接受 2021 年 XNUMX 月更新的数据集的培训。因此，如果从该日期开始请求更新的信息， ChatGPT 无法提供准确的信息。当然，适用于不支持使用辅助插件的免费版本。

通过推出 GPTBot, OpenAI 通过这个新的方式为网页索引开辟了道路 web crawler。正如谷歌、微软、雅虎等许多公司多年来一直在做的那样。

GPT-5 和由 OpenAI 开发的新网络爬虫 GPTBot。

新 web crawler GPTBot 利用 web agent:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

网站所有者可以通过文件控制网页的索引 robots.txt，使用与其他指令相同的指令 web crawler以及其他公司的。

例如，如果网站所有者不希望 OpenAI 要从网站收集信息，可以添加 robots.txt 行：

User-agent: GPTBot
Disallow: /

即使他表现得像一个 web crawler, GPTBot 将有一个明确的目的：收集公开可用的数据，同时小心避免涉及付费墙、收集个人数据或违反政策的内容的来源 OpenAI.

但存在不少争议，有些甚至引起了针对该公司的法律诉讼 OpenAI 未经作者同意或未指明来源的隐私和内容使用。

XNUMX 月，日本隐私监管机构发出警告 OpenAI 关于未经授权的数据收集。意大利今年早些时候也暂时禁止使用 ChatGPT 由于涉嫌违反欧盟隐私法。