我认为那不会很久 OpenAI 它还将在基于人工智能的搜索引擎的开发中发挥作用。 新的 web crawler GPTBot cu modeGPT-5 广泛语言已经发布。
那些使用 ChatGPT 我知道这个 model 广泛的语言(LLM) 当前正在运行 GPT-3.5,正在接受 2021 年 XNUMX 月更新的数据集的培训。因此,如果从该日期开始请求更新的信息, ChatGPT 无法提供准确的信息。 当然,适用于不支持使用辅助插件的免费版本。
通过推出 GPTBot, OpenAI 通过这个新的方式为网页索引开辟了道路 web crawler。 正如谷歌、微软、雅虎等许多公司多年来一直在做的那样。
GPT-5 和由 OpenAI 开发的新网络爬虫 GPTBot。
新 web crawler GPTBot 利用 web agent:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
网站所有者可以通过文件控制网页的索引 robots.txt
,使用与其他指令相同的指令 web crawler以及其他公司的。
例如,如果网站所有者不希望 OpenAI 要从网站收集信息,可以添加 robots.txt
行:
User-agent: GPTBot
Disallow: /
即使他表现得像一个 web crawler, GPTBot 将有一个明确的目的:收集公开可用的数据,同时小心避免涉及付费墙、收集个人数据或违反政策的内容的来源 OpenAI.
但存在不少争议,有些甚至引起了针对该公司的法律诉讼 OpenAI 未经作者同意或未指明来源的隐私和内容使用。
XNUMX 月,日本隐私监管机构发出警告 OpenAI 关于未经授权的数据收集。 意大利今年早些时候也暂时禁止使用 ChatGPT 由于涉嫌违反欧盟隐私法。