自然言語エンジンや文章要約AIなどを開発する企業「イライザ」が新たに、アメリカのメタ社の「Llama3」をベースとした日本語LLMを開発したと発表しました。新開発の日本語LLMには、どのような性能が備わっているのでしょうか。
今回は、イライザが開発した日本語LLMのニュースをもとに、日本語LLMの概要や性能について深掘りします。成長し続けるAI分野の動向を探るきっかけにしてください。
イライザがLlamaをベースとした日本語LLMを開発
国内で自然言語エンジンや文章要約AIの開発・運営を提供しているイライザが、長年培ってきた開発のノウハウを活かし、アメリカのメタ社が提供しているAI「Llama」をベースとした日本語LLMを開発したと発表しました。
700億そして80億のパラメーターをもつ2種類の日本語LLMが開発されており、そのうちの700億パラメーターの日本語LLMは、国内最高精度を達成したと話題を呼んでいます。
日本のAI分野の発展に大きく貢献できるのはもちろん、AIそして日本語LLMを導入した企業の業務効率をさらに高められると期待されています。
株式会社イライザの概要
イライザは大規模言語モデルを活用し、まだ社会に実装されてない領域への挑戦を目指している開発会社です。2018年に設立されたばかりの新しい企業であり、次のような事業を国内に向けて展開しています。
- AIリサーチ&ソリューション事業
- AI SaaS事業
すでに日本語に対応したAIによる自然言語処理エンジン「ELYZA Brain」や、文章の作成支援やチャットボットの構築に利用できる「ELYZA DIGEST」など、数多くのソリューションを提供しています。
会社名 | 株式会社イライザ(ELYZA) |
所在地 | 〒113-0033 東京都文京区本郷3-15-9 SWTビル 5・6F |
代表者 | 曽根岡侑也 |
設立年 | 2018年9月 |
日本語LLMの検証結果
イライザが開発した日本語LLMは、700億パラメーターのモデルが、日本語を対象にした以下に指標で、国内最高精度を達成したと言われています。
- イライザ・タスクス100
- ジャパニーズMT-ベンチ
それぞれ、ほかのAIをベースにした日本語LLMも精度の確認が行われていますが、イライザが開発した日本語は、イライザ・タスクス100で5段階評価中4.97、ジャパニーズMT-ベンチで10点満点中9.075という高評価を獲得しています。
どちらの指標も世界規模で有名なGPT-4を上回る結果を残したことから、高い精度のAI出力が可能になると国内中から期待が寄せられています。
日本語LLMとは?
今回のニュースとで登場した「日本語LLM」とは、日本語の特性やニュアンスを理解し、自然な言葉遣いを出力してくれる大規模言語モデルのことです。
例えば、機械的でロボットのようなカタコトではなく、接続詞やたとえ話を交えた流暢な文章を出力してくれるのが日本語LLMの役割になります。
「日本語」という名称が付くとおり、LLMは世界各国でそれぞれLLMが設けられているのが特徴です。AIの技術を日本で利用するために欠かせないモデルであると覚えておきましょう。
日本語に特化した日本語LLM一覧
日本語LLMはイライザが開発したモデルだけでなく、数多くのモデルが提供されています。
その中でも日本語に強い特化型のLLMを下表にまとめました。
日本語LLM | 概要 |
GPT-4日本語カスタムモデル | ChatGPTなどを提供するOpenAIの日本語LLMであり、日本語の出力性能に優れているのはもちろん、翻訳や要約にも対応できる |
tsuzumi | NTTが開発した日本語LLMであり、軽量でハイスピード処理で出力できる |
cotomi | NECが開発した日本語特化型のLLMであり、130億のパラメータを使ってコンパクトかつハイスピードなAI出力に対応できる |
Rakuten AI 7B | 楽天が開発した日本語LLMであり、フランスのMistral AI社が開発した「Mistral-7B-v0.1」をベースに構築された |
Granite日本語版 | IBMが開発した日本語LLM法務・財務といったビジネス関連のデータ学習に特化する |
国内ではすでに日本語LLMを含めたAI技術を業務で活用している企業が次々と登場しています。
その中でも研究開発分野のAI技術活用に興味がある方は、以下の記事をチェックしてみてください。ラボラトリーオートメーションのニュースを深掘りしています。
日本語LLMが必要な理由
日本語LLMはすでに完成されているAIに追加することで機能するため、そもそも日本語LLMがなくとも動作させることが可能です。では、なぜ日本語LLMが必要になるのでしょうか。
ベースとなるAIそして日本語の難しさというポイントから、日本語LLMが必要とされる理由を深掘りしていきます。
ベースとなる言語が異なる
イライザが開発した日本語LLMは、アメリカのメタ社の「Llama3」をベースにしていることからわかるように、AIがもともと英語で構築されています。
またAIの深層学習に利用されている情報もすべて英語であるため、そもそも日本語には対応していません。また、日本語LLMを導入していないAIは、日本語での出力ができないのがネックでした。
そこで役立つのが日本語LLMです。
豊富なパラメーターの処理ができる日本語LLMがあれば、日本語の質問に対して日本語で回答してくれるようになります。
海外の情報しか取り込まれていない
日本語LLMが必要とされるのは、ベースとなるAIがその国の情報しか取り込んでいないのが理由です。
例えば、AIがアメリカで生まれたものの場合、アメリカの情報や情勢には詳しい一方で、日本の情報にはうまく答えられません。対して、日本の情報を学習してある日本語LLMがあれば、同じAIをベースとしながら、日本語の情報についても返答をくれるようになります。
AIに新しい知識を付与するのがLLMの必要性であり、その中でも日本の情報を与えたいのなら日本語LLMが必要になると覚えておきましょう。
日本語独特の言葉遣いを学習してくれる
英語と日本語のニュアンスや語順の違いなども、日本語LLMが必要になる理由です。
例えば、英語の文脈のLLMをそのまま日本語に適用すると、カタコトでの出力や、間違った翻訳を出力する恐れがあります。特に日本語は同じ文字でも複数の異なる意味をもつ言葉が多いため、英語の直訳では対応できません。
一方で日本語LLMがあれば、AIが日本語の文脈をしっかりと理解してくれるほか、以下に示す日本語特有の言葉遣いや言い回しに対応できるようになります。
- 敬語
- 尊敬語
- 丁寧語
- 和製英語
- スラング
なかでも日本語は、漢字・ひらがな・カタカナなど、いろんな言葉を組み合わせて利用します。シンプルな英語と違う面が多いことから、日本語LLMを活用することが欠かせないのです。
AI技術を導入したいと考えているのなら、AIエンジニアのセミナーに参加してみてはいかがでしょうか。以下の記事ではおすすめのセミナー情報をまとめています。
日本語LLMに期待されるポイント
日本語LLMは現在進行形で進化しつづける魅力的な大規模言語モデルです。
LLMの成長に終わりはなく、今後も本項で紹介する4つのポイントに期待が寄せられています。
高度な日本語の理解力
すでに流暢な日本語を出力できる日本語LLMですが、まだまだ文章として違和感を覚えるポイントが複数見受けられます。特に以下に示すポイントについては学習するのが難しいことから、さらなる成長の対象として学習の準備がスタートしています。
- 俗語の理解
- 方言の理解
- 感情表現の高度化
- 推論する能力
特にAIは、自分で考えて推論するのが苦手です。
人間と同じように「過去の情報を見ると今後どうなる」「もしかするとこうなるかもしれない」といった柔軟性の向上が期待されています。
導入するユーザーに合わせたカスタマイズ性
現在の日本語LLMは、学習された情報をそのまま提供されていることから汎用性が高い一方でニッチなジャンルへの対応が難しいという課題を抱えています。
特にAIを導入する企業などは、自社独自の事業でAIを活用しなければならないため、汎用性が高いAIだけでは全業務に対応できません。
そこで期待されるのが日本語LLMにカスタマイズ性能が付与されることです。
企業が自ら日本語LLMをカスタマイズし、社内情報などを読み込ませたり、業界用語を組み込ませたりできれば、業務に適用しやすいAIとして活用できます。
処理の軽量化
現在利用されている日本語LLMは、数億を超えるパラメーターを使ってAIの処理を行うことから、処理するために膨大なGPUの処理が必要となります。
ハイスペックPCがなければ処理できない場面が多いのはもちろん、処理させる量が多くなればなるほど処理に時間がかかってしまうのがネックでした。
そこで近年注目され始めたのがLLMの軽量化や、学習範囲を限定した「SLM(小規模言語モデル)」の構築です。特定のニーズに合うパラメーター数で対応することで高速処理を実施できることから、今後日本語LLMの軽量化やSLM化が進行していくと予想されます。
AIの知識をさらに学びたい、AIをプログラミングに活用したいという方は、プログラミング言語の「Python」を活用したセミナーに参加するのがおすすめです。以下のセミナーに参加すれば、実践的にAI開発のノウハウを学べます。
日本語LLMについてまとめ
イライザが開発した日本語LLMはもちろん、国内では数多くの特化型LLMが登場・進化を続けています。その中でもイライザが開発した日本語LLMはパラメーター数と出力の精度がトップクラスであることから、今後企業導入数が大幅に増加していくものだと予想できます。
目まぐるしく進化を続けるAI技術の発展に今後も目が離せません。
