株式会社ヒカリ
福岡県久留米市
NEWS / お役立ち情報

MicrosoftがBuild 2026で自社AI「MAIシリーズ」7種を発表|MAI-Transcribe-1.5が日本語含む43言語で世界最高精度—TeamsとAzureを使う久留米・福岡の中小企業が確認すべき3つのポイント

2026.06.16お役立ち情報

Microsoftは2026年6月2〜3日にサンフランシスコで開催した開発者向け年次イベント「Microsoft Build 2026」で、他社AIモデルからの蒸留を一切行わずに自社製Maia 200シリコン上で一から構築した7種のAIモデル「MAIシリーズ」を一挙に発表しました(出典:Microsoft公式)。推論・コーディング・画像生成・文字起こし・音声合成の5領域にわたる7種のモデルはMicrosoft Foundryおよび各種Azure AIサービスを通じて提供されます(出典:Microsoft公式)。中でも特筆すべきはMAI-Transcribe-1.5が日本語を含む43言語でWhisper-large-V3・GPT-4o-Transcribe・Gemini 3.1 Flashを上回る最低ワードエラー率(WER)を達成した点と(出典:Microsoft公式)、推論モデルMAI-Thinking-1がAnthropicのClaude Sonnet 4.6と同等以上のヒューマン評価スコアを記録した点です(出典:Microsoft公式・GIGAZINE)。これは2024年以来OpenAIのモデルに大きく依存してきたMicrosoftが、自社技術でフルスタックのAI基盤を持つ方向へ本格転換したことを意味します(推測)。また同イベントでMicrosoftは、エージェントが自律的に複数のタスクを並行処理できるGitHub CopilotデスクトップアプリMicrosoft Scout(常時稼働型エージェント)も発表しており、「エージェントファースト時代」への移行を鮮明に打ち出しました(出典:Microsoft公式)。

何が起きたか

7種のMAIシリーズとは—自社製Maia 200チップで一から構築したMicrosoft独自AI

MAIシリーズは今回初めて公開されたMicrosoftの完全自社開発AIモデル群で、OpenAIやAnthropicなど外部ラボのモデルを一切の蒸留なしに独自データと自社製ハードウェア(Maia 200)で構築している点が最大の特徴です(出典:Microsoft公式)。7種の内訳は以下のとおりです(出典:Microsoft公式・各種メディア)。①MAI-Thinking-1:総パラメータ数1兆・実活性化35Bの推論特化MoEモデル。128Kコンテキスト。Claude Sonnet 4.6超えのヒューマン評価スコアを記録。Microsoft Foundryでプレビュー提供中。②MAI-Code-1-Flash:50億パラメータの超軽量高速コーディングモデル。GitHub CopilotとVS Codeに統合済み。③MAI-Image-2.5:テキストから画像生成でArena AIリーダーボード3位・画像から画像変換で2位。④MAI-Image-2.5-Flash:高速版。⑤MAI-Transcribe-1.5:43言語で世界最高精度のSTT(音声認識)モデル。ストリーミング配信も近日対応予定。⑥MAI-Voice-2:15以上の言語で音声クローンに対応した高品質TTS(テキスト読み上げ)モデル。短い音声サンプルから声を複製できる機能を搭載。⑦MAI-Voice-2-Flash:低遅延高速版。これらすべてがMicrosoft Foundry(旧Azure AI Foundry)経由でAPI提供されます(出典:Microsoft公式)。

MAI-Transcribe-1.5が日本語で世界最高精度—会議・コールセンターのDXに直結

MAI-Transcribe-1.5は43言語でFLEURSベンチマークのワードエラー率(WER)が業界最低を達成し、比較対象となったScribe V2・Whisper-large-V3・GPT-4o-Transcribe・Gemini 3.1 Flashすべてを上回っています(出典:Microsoft公式)。日本語はFLEURSの対応言語に含まれており(推測)、日本語の会議録音・電話音声・インタビュー音声の文字起こしにおいてこれまでの最高水準を超える可能性があります(推測)。Azure Speech SDKおよびREST APIで提供されるため(出典:Microsoft公式)、既存のTeams会議録音やAzure上の音声データパイプラインへの組み込みがスムーズに行えます(推測)。また近日中にストリーミング配信も対応予定で(出典:Microsoft公式)、リアルタイム字幕・同時通訳・議事録自動生成などの用途への展開が見込まれます(推測)。

MAI-Voice-2の音声クローンとGitHub Copilotアプリのエージェント機能

MAI-Voice-2は短い音声サンプルから話者の声を再現する音声クローン機能を備えており、誤用防止のセーフガードとともに提供されます(出典:Microsoft公式)。15言語以上の高品質な自然音声生成と感情・抑揚のコントロールが可能で(出典:Microsoft公式)、音声案内・IVR(自動応答システム)・教育コンテンツ・ポッドキャストなど幅広い業務への応用が期待されます(推測)。また同イベントで発表されたGitHub Copilotデスクトップアプリ(技術プレビュー)は、Copilot Pro/Pro+/Business/Enterprise向けに提供され、複数エージェントを並行起動してコードを自律修正させる「Autopilotモード」を備えています(出典:Microsoft公式)。さらにMicrosoft Scoutは「Autopilots」と呼ばれる新カテゴリの第一号エージェントとして、ユーザーの代わりに常時稼働し独自のIDを持って業務を遂行します(出典:Microsoft公式)。Microsoftは今回のBuild 2026を通じて、AIをアシスタントとしてではなく自律的に働くエージェントとして位置付ける「エージェントファースト」の製品哲学を鮮明にしました(推測)。

日本への影響・ビジネス活用ヒント

  • Teams会議の日本語文字起こし精度が大幅に向上する可能性:MAI-Transcribe-1.5がTeamsの会議録音・文字起こし機能のバックエンドに採用された場合(推測)、現在のTeams自動文字起こしで多発する固有名詞・専門用語の誤認識が大幅に改善される可能性があります(推測)。日本語会議の議事録作成・要約生成の精度が上がることで、会議後の整理・共有業務の工数削減につながります(推測)。
  • OpenAIへの依存リスクを分散できるマルチモデル戦略が現実的に:Claude Fable 5が米国政府の輸出規制で一時停止されたように(出典:各種報道)、特定ベンダーへのAI依存はサービス停止リスクを伴います(推測)。MAIシリーズが本格展開されれば、Azure上でOpenAI・Claude・Gemini・MAIを組み合わせたマルチモデル構成が容易になり(推測)、特定AIへの依存を減らした安定運用が可能になります(推測)。
  • Microsoftの日本への1兆6,000億円投資で国内AI基盤が整備加速:Microsoftは2026〜2029年の4年間で日本に100億ドル(約1兆6,000億円)を投資し、SoftBank・Sakura Internet・NTT Data・NEC・Fujitsu・Hitachiと協力して2030年までに100万人のAI人材を育成することを表明しています(出典:Microsoft公式・CNBC)。AzureのGPUインフラが国内に拡充されデータを日本国内に留めたまま高性能AIを使える環境が整うため(推測)、MAIシリーズを含むAzure AIサービスの応答速度・データ主権面でのメリットが今後大きくなります(推測)。

久留米・福岡の中小企業様へ—MAIシリーズを業務に活かす具体的な提案

久留米の製造業・建設業では、現場の打ち合わせや取引先との電話会議を毎回人が手書きメモ・録音を頼りに議事録化しており、担当者1人あたり月に数時間の作業コストが発生しているケースが珍しくありません。MAI-Transcribe-1.5をAzure Speech SDKで社内システムと連携させると、iPhoneやTeamsでの会議音声を自動でテキスト化し、そのテキストをClaude・GPT-4o等に渡して議事録・アクション項目・見積参考数値を自動生成する業務フローを構築できます(推測)。会議後30秒でメールを自動送信する仕組みも技術的には実現可能で(推測)、現場リーダーや技術担当者がドキュメント整理に費やす時間を大幅に削減できます(推測)。久留米の精密機械・部品メーカーでは取引先との仕様調整会議が頻繁に行われますが、専門用語が混在するこの種の会議でも業界最低ワードエラー率のMAI-Transcribe-1.5なら高精度の文字起こしが期待できます(推測)。

福岡の飲食業・小売業・観光・サービス業では、電話予約・問い合わせ対応に毎日多くの時間とスタッフを割いています。MAI-Voice-2の音声クローン機能を活用すると、自社ブランドに合った自然な「AI音声」をオーナーや担当者の声から数分のサンプルで生成し、IVR(自動音声応答)・予約確認電話・多言語対応音声案内などに利用できるようになります(推測)。福岡市内のインバウンド観光関連ビジネスでは英語・中国語・韓国語など多言語対応が課題になっていますが(推測)、15言語以上に対応したMAI-Voice-2を活用することで少人数スタッフでも24時間多言語音声案内が実現します(推測)。また福岡の飲食店・小売業がAzureのAI音声サービスプランを活用すれば、高額なコールセンター委託なしに自社の予約受付・問い合わせ対応を段階的にAI化していける可能性があります(推測)。

ヒカリでは久留米・福岡の中小企業様が今回のMicrosoft Build 2026で発表されたMAI-Transcribe-1.5・MAI-Voice-2などのAzure AIサービスを実際の業務に組み込むための選定・設計・導入・社員研修まで一括サポートしています。「TeamsやAzureはすでに使っているがAIをうまく活用できていない」「自社の電話対応をAI化したい」「会議の議事録作成を自動化したい」という具体的なご要望からお気軽にご相談ください。

次の一歩を、ご一緒に。

AI導入・DX推進・資金調達・キャリア支援——どんなご相談もヒカリにお任せください。

お問い合わせ