Real News On-line!

沖縄から福島、東京までの日本の政治、ビジネス、犯罪、技術、社会、文化に関する最新ニュースと詳細な分析

なぜ日本はChatGPTの独自バージョンを構築しているのか

なぜ日本はChatGPTの独自バージョンを構築しているのか

ChatGPT の日本語版を開発するために、日本のスーパーコンピュータ「富岳」を使用して日本語のテキスト理解が行われました。クレジット: Getty 経由の共同通信社

日本は、米国企業 OpenAI 製の人工知能 (AI) を活用したチャットボットである ChatGPT の独自バージョンを構築しています。ChatGPT は、わずか 1 年前に発表されて以来、世界的な反響を呼びました。

日本政府とNEC、富士通、ソフトバンクなどの大手テクノロジー企業は、大規模言語モデル(LLM)として知られる同じ基本技術に基づいて、日本語を使用するAIシステムの開発に数億ドルを費やしている。 英語版の翻訳の代わりに。

「GPTなどの既存の一般言語修士課程は、英語では優れていますが、日本語では、アルファベット体系の違いや限られたデータ、その他の要因により、失敗することがよくあります」と、自然科学を専門とする日本の東北大学研究員、坂口圭介氏は言う。言語。 彼は治療します。

英語の偏見

LLM は通常、公的に入手可能なソースからの膨大な量のデータを使用して、自然な音声と散文のパターンを認識します。 彼らは、テキスト内の前の単語に基づいて次の単語を予測するように訓練されています。 ChatGPT の前のモデルである GPT-3 でトレーニングされたテキストの大部分は英語でした。

人間のような会話を行う ChatGPT の不気味な能力は、研究者に感銘を与えると同時に懸念を抱かせました。 これを省力化ツールの可能性があると見る人もいます。 科学論文やデータの捏造に利用されるのではないかと懸念する人もいる。

日本では、他の言語のデータセットで訓練された AI システムが日本の言語と文化の複雑さを理解できないのではないかという懸念があります。 日本語の文章の構造は英語とは全く異なります。 したがって、ChatGPT は日本語のクエリを英語に翻訳し、答えを見つけて、その応答を日本語に翻訳し直す​​必要があります。

英語の文字数はわずか 26 文字ですが、日本語の書き言葉は 48 文字の基本文字 2 セットと、通常使用される 2,136 文字の漢字で構成されています。 ほとんどの漢字には 2 つ以上の発音があり、めったに使用されない漢字も 50,000 あります。 この複雑さを考えると、ChatGPT が言語で行き詰まるのも不思議ではありません。

日本語では、ChatGPT は「ほとんどの人が見たことのない非常に珍しい文字を作成することがあり、その結果、奇妙な未知の単語が生成されます」と坂口氏は言います。

文化的なルール

LLM が有用であり、商業的にも実行可能であるためには、言語だけでなく文化的慣習も正確に反映している必要があります。 たとえば、ChatGPT が日本語で求人応募メールを書くように依頼された場合、標準的な丁寧さの表現が省略され、英語からの明確な翻訳のように見える可能性があります。

日本文化に対するLLMの感受性を測定するために、私は研究者のグループを立ち上げました。 ラコダ, LLM 保有者が日本のトピックに関する自由形式の質問にどれだけうまく答えることができるかを評価します。 rakuda の共同創設者である Sam Basaglia とその同僚は、ChatGPT に対し、回答がどの程度柔軟で文化的に適切であるかを標準的なプロンプトと比較するよう依頼しました。 結果を分類するためのツールの使用は、GPT-4 が人間の審査員と 87% の確率で一致したことを示す 6 月に発行されたプレプリントに基づいていました。1。 日本の最高のオープンソース MBA は、rakuda で 4 位にランクされていますが、1 位は、審査委員会でもあることを考えると、おそらく驚くことではないかもしれませんが、GPT-4 です。

「日本の修士課程の学生は確かにかなり上達していますが、GPT-4では大きく遅れています」と東京大学の物理学者で日本語モデルを研究しているパッサリア氏は言う。 しかし、原理的には、日本の法学修士課程が将来的に GPT-4 と同等かそれを超えることができない理由はない、と彼は言う。 「技術的には克服できないわけではありませんが、単なるリソースの問題です。」

日本の法律で LLM を作成するための主要な取り組みの 1 つは、世界最速のコンピュータの 1 つである日本のスーパーコンピュータ「富岳」を使用し、主に日本語入力でトレーニングすることです。 東京工業大学、東北大学、富士通、政府資金援助を受けた理化学研究所研究センターグループの支援を受けて、完成したLLMは来年リリースされる予定だ。 GPT-4 や他の独自モデルとは異なり、他のオープンソース LLM プログラムに参加して、そのコードをすべてのユーザーが利用できるようになります。 プロジェクトの参加者である坂口氏によると、チームは出力に影響を与え、規模の尺度として役立つ値である少なくとも 300 億個のパラメーターをプロジェクトに与えることを望んでいます。

ただし、富岳LLMプログラムの後にさらに大規模なプログラムが続く可能性があります。 日本の文部科学省は、公表された研究から学習して科学的仮説を生成し、調査目標の設定を加速する、科学的ニーズに合わせた日本の AI プログラムの確立に資金を提供しています。 このモデルは、GPT-3 の半分をわずかに超えるサイズである 1,000 億個のパラメーターから開始でき、時間の経過とともに拡張されます。

「科学研究サイクルを大幅に加速し、研究空間を拡大したいと考えています」と理化学研究所生命機能科学研究センター副センター長の太地誠氏はこのプロジェクトについて語る。 LLMの開発には少なくとも300億円(2億400万米ドル)かかる可能性があり、2031年に一般公開される予定だ。

容量拡張

他の日本企業もすでに LLM テクノロジーを商品化しているか、商品化を計画しています。 スーパーコンピューターメーカーのNECは5月に日本製AIの利用を開始し、内部レポートの作成に必要な時間を50%、内部ソフトウェアのソースコードの作成に必要な時間を80%削減したと主張している。 同社は7月に、カスタマイズ可能な生成AIサービスを顧客に提供し始めた。

「金融、運輸、物流、流通、製造など幅広い業界で利用できる」とNECデータサイエンス研究所の小山田正史主任研究員は語る。 同氏は、研究者がこれを使用してコードを記述したり、研究論文の執筆と編集を支援したり、既存の出版論文をスキャンしたりできると付け加えた。

一方、日本の通信会社ソフトバンクは、日本語スクリプトで訓練された生成AIに約200億円を投資しており、来年には独自のMBAを立ち上げる予定だ。 4,000万人の顧客を持ち、OpenAIの投資家であるマイクロソフトと提携しているソフトバンクは、企業のビジネスのデジタル化と生産性の向上を支援することを目指していると述べている。 ソフトバンクはLLMが大学や研究機関などで利用されることを期待している。

一方、日本の研究者らは、正確で効率的な日本製のチャットボットが科学を加速させ、日本と世界の溝を埋めるのに役立つことを期待している。

慶応義塾大学医学部の医療技術研究者、木下翔太郎氏は「ChatGPTの日本語版が正確になれば、日本語を学びたい人や日本について研究したい人にとって、より良い結果が得られると期待される」と語る。 東京。 「その結果、国際共同研究にプラスの影響が及ぶ可能性があります。」

READ  伊賀 Swiatek が Ons Jabeur に乗って全米オープン女子シングルスで優勝 | 2022 全米オープン テニス