GPT-5 和由 OpenAI 开发的新网络爬虫 GPTBot。

我认为那不会很久 OpenAI 它还将在基于人工智能的搜索引擎的开发中发挥作用。 新的 web crawler GPTBot cu modeGPT-5 广泛语言已经发布。

那些使用 ChatGPT 我知道这个 model 广泛的语言(LLM) 当前正在运行 GPT-3.5,正在接受 2021 年 XNUMX 月更新的数据集的培训。因此,如果从该日期开始请求更新的信息, ChatGPT 无法提供准确的信息。 当然,适用于不支持使用辅助插件的免费版本。

通过推出 GPTBot, OpenAI 通过这个新的方式为网页索引开辟了道路 web crawler。 正如谷歌、微软、雅虎等许多公司多年来一直在做的那样。

GPT-5 和由 OpenAI 开发的新网络爬虫 GPTBot。

新 web crawler GPTBot 利用 web agent:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

网站所有者可以通过文件控制网页的索引 robots.txt,使用与其他指令相同的指令 web crawler以及其他公司的。

例如,如果网站所有者不希望 OpenAI 要从网站收集信息,可以添加 robots.txt 行:

User-agent: GPTBot
Disallow: /

即使他表现得像一个 web crawler, GPTBot 将有一个明确的目的:收集公开可用的数据,同时小心避免涉及付费墙、收集个人数据或违反政策的内容的来源 OpenAI.

但存在不少争议,有些甚至引起了针对该公司的法律诉讼 OpenAI 未经作者同意或未指明来源的隐私和内容使用。

XNUMX 月,日本隐私监管机构发出警告 OpenAI 关于未经授权的数据收集。 意大利今年早些时候也暂时禁止使用 ChatGPT 由于涉嫌违反欧盟隐私法。

作为科技爱好者,我从2006年开始在StealthSettings.com上愉快地撰写文章。我在操作系统方面有丰富的经验,包括macOS、Windows和Linux,还熟悉编程语言和博客平台(WordPress),以及在线商店平台(WooCommerce、Magento、PrestaShop)。

如何以 » GPT AI » GPT-5 和由 OpenAI 开发的新网络爬虫 GPTBot。
发表评论