まるいブログ

まるくするブログ

生成AIのAPI利用で情報漏洩?

こんにちは。

最近多様な生成AIのAPIを試していますが、大きな関心として私のインプット・アウトプットデータが学習されてしまうのかどうかということがあります。

ChatGPTの利用にあたってはオプトアウトの申請ができ、明示的に自分のプロンプトを学習させないことができました。

しかしAPIについてはどうでしょうか。

以下のページからOpenAIはAPI利用者のデータは学習しないことがわかります。

https://openai.com/enterprise-privacy/

Anthropicも以下のページから基本的に学習しないことがわかります。

https://support.anthropic.com/en/articles/7996868-i-want-to-opt-out-of-my-prompts-and-results-being-used-for-training-models

GoogleのGeminiはプランのページからわかりますが、無料版では学習に使用され、有料版では使用されません。

Cohereも以下のページから課金して使えば学習させないように設定できるようになります。

https://cohere.com/data-usage-policy

要するに、課金して使えばどの生成AIも学習させない設定にはできそうですね。

それを信用するかは別ですが。。

また、OpenRouterの使用にあたっては、OpenRouterのオプトアウトと、利用するモデルのオプトアウトのそれぞれを選択できます。OpenRouterにオプトイン(学習することを許可)すると、1%の割引があります。私はしません。

一括でモデルに対する学習を拒絶できるのはありがたいですね。

https://openrouter.ai/privacy

ということで、どのAPIも安心して利用できそうです。

いや、嘘ついてる可能性もあるのか。。。難しい。

安くて強いモデルとしてDeepSeekという中国企業のAIが話題ですが、こちらどうやらオプトアウトできなさそうで、デフォルトでユーザーのインプットアウトプットを学習してるようです。

https://chat.deepseek.com/downloads/DeepSeek%20Terms%20of%20Use.html

OpenRouterを通して使うと学習されないんですかね?

よく分かりません。

教えてほしいです。

 

追記

OpenRouterでモデルに学習させないように設定していると、DeepSeekのモデルは利用できなくなっていました。

つまり、DeepSeekではオプトアウトはできないので利用されても良いデータしか扱ってはいけないということですね。