自动地,其背后的公司 WordPress 和 Tumblr 正在洽谈通过将其数据出售给人工智能公司(包括 MidJourney 和 OpenAI。该数据来自博客平台 Tumblr 和 WordPress.com 将用于训练 AI 模型。
尽管交易细节尚不清楚,但这一消息引起了用户的担忧,担心这两个博客平台上的私人内容可能被滥用。 404 Media 还表示,Automattic 内部出现了内部冲突,因为收集的内容包括不打算保留在公司内部的私人数据。
为了应对这种强烈反对,Automattic 将推出一项新功能,允许用户选择不共享人工智能训练数据。该公司在一篇博客文章中重申了为 Tumblr 用户提供服务的承诺 Wordpress un control mai mare asupra conținutului lor. Menționează lansarea unei setări pentru “a descuraja explorarea de către companiile de AI”, explicând că platformele de explorare AI de vârf sunt blocate în mod implicit.
开发人工智能模型的公司使用博客内容的问题不仅限于 Automattic 公司管理的平台。这么多 OpenAI 与谷歌一样,他们使用爬虫从所有网站收集信息来训练人工智能模型。该过程类似于搜索引擎收集数据。
你怎么能阻止 OpenAI 双子座(吟游诗人)从你的博客中获取数据?
如果您拥有博客或网站,并且不希望其中的数据用于训练人工智能模型 OpenAI 和 Gemini,您可以阻止爬虫访问您的内容。该限制可以通过文件设置 robots.txt
.
OpenAI Crawlers
User-agent: GPTBot
Disallow: /
Gemini Crawlers
User-agent: Google-Extended
Disallow: /
保存包含新行的 robots.txt 文件后,转到 Google Console 以: Settings > robots.txt > 单击带有三个点的菜单,单击“Request a recrawl“。
相关新闻: GPT-5 和由 OpenAI 开发的新网络爬虫 GPTBot。
对于 Tumblr 用户和 Wordpress, accesul preluării datelor de pe bloguri de către OpenAI 或其他人工智能开发公司,将能够通过 Automattic 公司提供的工具进行阻止。