楽天グループの最新日本語LLM「Rakuten AI 3.0」を巡り、そのベースモデルが中国DeepSeek系ではないかとの見方が広がっている。ITmedia AI+によれば、Hugging Face上で公開されたモデルページや設定ファイルの一部に「deepseek_v3」「DeepSeek-V3」といった表記が見られたことから、X上で指摘が相次いだ。これに対し、楽天の担当者はITmedia AI+の取材に対し、ベースモデルについて「非開示」として回答を避けたという。

発端はHugging Face上のタグと設定情報だった

実際にHugging Faceの「Rakuten/RakutenAI-3.0」ページでは、モデルタグとして「deepseek_v3」「DeepSeek-V3」「Mistral」などが表示されているほか、設定ファイルの公開ページでも同様の表記が確認できる。READMEでは、同モデルは約7000億パラメータ級の日本語最適化MoEモデルであり、「オープンソースコミュニティの最良の成果を活用して開発した」と説明されているが、具体的にどの既存モデルを土台にしたかまでは明示していない。

楽天は「独自データと研究成果を活用」と説明

楽天は3月17日のプレスリリースで、「Rakuten AI 3.0」を経済産業省・NEDOのGENIACプロジェクトの一環として開発した国内最大規模の高性能AIモデルと位置付けている。説明文では、日本語に最適化した約7000億パラメータのMoEモデルであり、オープンソースコミュニティの成果に加えて、楽天独自の高品質なバイリンガルデータ、エンジニアリング、研究成果を組み合わせたとしている。一方で、この公式発表でも土台となった具体的なベースモデル名は示していない。

論点は「国産AI」表示とオープンモデル活用の関係にある

今回の話題が広がった背景には、楽天が同モデルをGENIAC採択案件として公開し、日本語性能の高さや国内AI開発への貢献を打ち出していたことがある。ITmedia AI+の記事要約でも、Rakuten AI 3.0は商用利用可能なApache 2.0ライセンスで公開され、国内企業向けAI開発支援プロジェクトの補助を受けて開発されたと紹介されている。そのため、既存の海外オープンモデルをどの程度ベースにしているのかは、技術的関心だけでなく、国産モデルの位置付けや公的支援との関係でも注目を集めやすい論点となっている。

現時点で確認できるのは「DeepSeek表記がある」ことまで

もっとも、公開情報から直ちに「Rakuten AI 3.0の実体はDeepSeekそのもの」と断定することはできない。現時点で確認できる事実は、Hugging Face上のタグや設定ファイルにDeepSeek-V3系の表記があること、楽天が公式にはベースモデルを明かしていないこと、そして楽天自身が「オープンソースコミュニティの成果を活用した」と説明していることまでである。どの程度の再学習、追加学習、ファインチューニング、データ拡張、独自改変が施されているかは、現時点の公開資料だけでは判別できない。

今回の騒動が示すもの

今回の一件は、日本企業による生成AI開発が、ゼロからのフルスクラッチ開発か、既存オープンモデル活用かという単純な二択ではなくなっている現実を示している。オープンモデルを土台に独自データや追加学習で高性能化する手法自体は珍しくないが、モデルの由来や改変範囲をどこまで説明するかは、今後ますます重要になる可能性が高い。Rakuten AI 3.0を巡る議論は、性能評価だけでなく、透明性や説明責任のあり方にも波及しそうである。

参考

https://www.itmedia.co.jp/aiplus/articles/2603/19/news099.html