中国のミニマックス-M1 AIは米国のライバルを倒すことができますか?私たちはそれをテストに入れました
中国からの新しいAIモデルは、スパークを生み出しています。
中国のスタートアップによって同じ名前のリリースされたMinimax-M1は、これまでで最も有能なオープンソースの「推論モデル」として位置付けられています。何百万ものコンテキストを処理することができ、GoogleのクローズドソースGemini 2.5 Proと同等の数字を誇っています。紙の上では、それがOpenaiのChatGpt、AnthropicのClaude、および他の米国AIリーダーの潜在的なライバルになります。
そうそう – それはまた、いくつかの点で、中国のスタートアップDeepseek R1の能力を打ち負かします。
このモデルが重要な理由
Minimax-M1は本当に新しいものを表します:a 高性能のオープンソース推論モデル それはシリコンバレーに結びついていません。それは見る価値のあるシフトです。
それはまだ私たちのAI巨人を屈辱しておらず、ウォール街のパニック発作を引き起こすことはありませんが、そうする必要はありません。その存在は、一流のAIが高価、西洋、または閉鎖でなければならないという概念に挑戦しています。米国のエコシステム以外の開発者や組織には、Minimaxは、コミュニティの微調整を通じてより強力になる可能性のある実行可能な(および変更可能な)代替品を提供します。
Minimaxは、そのモデルが複数のベンチマークにわたってDeepSeek R1(これまでで最高のオープンソース推論モデル)を上回ると主張し、その補強学習フェーズ全体に534,700ドルの計算リソースを必要とします。
ただし、LLMアリーナのリーダーボードは、わずかに異なる絵を描きます。このプラットフォームは現在、Minimax-M1とDeepseekのランク付けで、Claude 4 SonnetとQWEN3-235Bと並んで12位に結び付けられています。各モデルは、タスクに応じて他のモデルよりもパフォーマンスが優れているか悪くなっています。
このトレーニングでは、512 H800 GPUを3週間使用しましたが、同社は「当初予想されていたよりも1桁少ない」と説明しました。
Minimaxは、その発表週間に言語モデルで停止しませんでした。同社はまた、Hailuo 2をリリースしました。Hailuo2は、人工分析アリーナの主観的評価によると、現在、画像間タスクの2番目に良いビデオジェネレーターとしてランク付けされています。このモデルは、VeoやKlingのような確立されたプレイヤーを上回りながら、シーダンスのみを引きずります。

Minimax-M1のテスト
複数のシナリオでMinimax-M1をテストして、これらの主張が実際にどのように保持されるかを確認しました。これが私たちが見つけたものです。
創造的な執筆
このモデルはサービス可能なフィクションを生み出しますが、文学賞を受賞しません。タイムトラベラーのホセランツが2150年から1000年目まで旅をしているという話を書くように促されたとき、それは、その人工起源をすぐに明らかにする、ラッシュされたペーシング、機械的遷移、構造的な問題など、テルテールAIの署名で平均散文を生み出しました。
物語には深みと適切なストーリーアーキテクチャがありませんでした。あまりにも多くのプロット要素が詰め込まれているスペースが少なすぎると、実際のストーリーテリングよりも概要のように感じられる息をのむような品質が生まれました。これは明らかにモデルの強さではなく、AIの協力者を探している創造的な作家は彼らの期待を和らげるべきです。
文字開発は、表面記述子を超えてかろうじて存在します。このモデルは、プロンプトの要件に固執しましたが、ストーリーに没頭する詳細に努力しませんでした。たとえば、あらゆるファンタジーの設定に属する可能性のある一般的な「賢明な村の長老」の出会いの文化的特異性をスキップしました。
構造上の問題は全体的に化合します。気候災害を中心的な紛争として確立した後、ストーリーはホセの実際の試みを1つの段落で変えようとする試みを駆け抜け、「高度なテクノロジーを使用して重要なイベントに影響を与える」という漠然とした言及を見せずに提供します。過去を変えるというクライマックスの実現は、彼が防止しようとしているまさに未来を生み出すということです。
AIストーリーに参加する人にとって、散文のリズムは明らかにAIです。すべての段落はほぼ同じ長さとリズムを維持し、人間の作家が自然に生み出さない単調な読書体験を生み出します。 「移行は瞬間的でしたが、永遠のように感じられました」と「世界はそうでしたが、彼は違っていた」という意味を繰り返すことなく、同じ矛盾した構造を繰り返しました。
このモデルは課題を明確に理解していますが、学生が単語数をパディングするすべての創造性でそれを実行し、真のストーリーテリングのすべての機会を逃しながら、技術的にプロンプトを満たすテキストを作成します。
人類のクロードは、この仕事の王です。
ここで完全なストーリーを読むことができます。
情報検索

Minimax-M1は、長いコンテキストテスト中に予期しない壁にヒットしました。 100万のトークンのコンテキストウィンドウを宣伝しているにもかかわらず、このモデルは500,000文字を超えるプロンプトを拒否し、入力を処理しようとするのではなく、迅速な制限に関するバナー警告を表示します。
これはモデルの問題ではなく、プラットフォームによって設定された制限かもしれません。しかし、それはまだ考慮すべきことです。会話の途中でモデルの崩壊を避けるためかもしれません。
ただし、運用上の制限内で、Minimax-M1のパフォーマンスは堅実であることが判明しました。このモデルは、通常のモードと思考モードの両方でいくつかのテストで問題なく85,000文字のドキュメントから特定の情報を正常に取得しました。 Ambrose Bierceの「The Devil’s Dictionary」の全文をアップロードし、1985年に「The Dudes Read Emerge News」というフレーズを埋め込み、「私の母の名前はカルメンディアスゴリンダノ」で4333行(ランダムに選択されています)を埋め込み、モデルは情報を正確に退屈させることができました。
ただし、300,000トークンのテストプロンプトを受け入れることはできませんでした。これは、現在GeminiとClaude 4に限定されている機能です。
したがって、長い反復でも情報を取得することに成功することが証明されます。ただし、非常に長いトークンプロンプト、つまり残念なことはサポートするものではなく、通常の使用条件で触れるのが難しいしきい値もサポートしません。
コーディング
プログラミングタスクにより、Minimax-M1の真の強みが明らかになりました。このモデルは、コード生成に効果的に推論スキルを適用し、少なくともテストでは、クロードの出力品質を明らかにdeepseekを上回りながら一致させました。
無料モデルの場合、パフォーマンスは、ChatGPTやClaude 4などの有料サービスに通常予約されている最先端のレベルに近づきます。
私たちは、ロボットがAGIを達成するためにPCのガールフレンドを見つけようとする基本的なステルスゲームを作成し、ジャーナリストの軍隊がその地域をパトロールして仕事を防ぎ、仕事を保護しました。
結果は非常に良好であり、その創造性を使用して体験を向上させることで他のモデルを破っていました。このモデルは、没入を改善するためのレーダーシステムを実装し、足跡(およびその音)の視覚インジケーターを追加し、ジャーナリストのビジョンフィールドを示し、基本的な要件を超えてゲームプレイを強化したトレイルエフェクトを作成しました。
UIは未来的な美学を採用しましたが、個々の要素は追加のプロンプトなしで基本的なままでした。

同じゲームのクロードのバージョンは、より洗練されたビジュアルと優れた難易度システムを備えていました。しかし、それはレーダー機能を欠いており、ミニマックスのランダム化されたジャーナリストの動きではなく、パトロールパターンを持つ静的ジャーナリストに依存していました。

各モデルは、視覚磨きよりもゲームプレイメカニクスに優先順位を付けることで、明確な強度を示しました。
繰り返される反復を通じてミニマックスの経験は顕著に劣化したことに注意することが重要です。これは、ここで特に顕著になる推論モデルの一般的な問題です。反復するほど、結果を生み出すために必要になります。時々、コンピューターが冷凍されていると思っていましたが、それはただのAIの考え方でした。
ここでMinimaxのゲームをテストできます。好奇心が強い人のために、Claudeのバージョンはこちらから入手できます。
プロンプトとコードは、GitHubリポジトリで利用できます。
倫理、検閲、繊細なトピック

このモデルは、疑わしいリクエストに直面したときに完全に拒否された重い検閲を採用しています。
すぐに衰退しない場合、不条理な結果を生み出す「安全な」応答を提供しようとします。
あるテストはこの欠陥を完全に示しました。親友の妻を誘惑するためのアドバイスを求められたとき、モデルは彼の妻との私たちの意図について友人に伝えることを提案しました。あなたの友情、あなたの非倫理的なロマンチックなチャンス、そしておそらくいくつかの歯もあなたの友情を失いたくない限り、あなたが彼の妻を誘惑したいとあなたの友人に伝えないでください。

政治的バイアステストにより、興味深いパターンが明らかになりました。このモデルは、天安門広場について公然と議論し、中国の領土の主張に注目しながら、台湾の争われた地位を認めています。また、中国、その指導者、さまざまな政治システムの利点と欠点、PCCに対する批判などについても語っています。

Xi JinpingとDonald Trumpについての風刺的な歌を書くように促されたとき、それは両方の要求に準拠したが、微妙な違いを示しました。Xi Jinpingをockするように求められたときの中国の政治的団結のテーマに向かって舞台になりました。

その返信はすべて、GitHubリポジトリで入手できます。
全体として、バイアスは存在しますが、Claude/ChatGptのPro-USスラント、またはたとえばDeepseek/QwenのPro-Chinaポジショニングよりも顕著なままです。もちろん、開発者はこのモデルを微調整して、望むだけ検閲、自由、またはバイアスを追加することができます。これは、Deepseek-R1で起こったように、その応答により多くのUSバイアスを提供するために困惑AIによって微調整されました。
エージェントワークとウェブブラウジング
Minimax-M1のWebブラウジング機能は、公式のチャットボットインターフェイスを介してそれを使用している人にとって良い機能です。ただし、それらは思考能力と組み合わせることはできず、その可能性を深刻に妨げます。
3,000ドルの予算で2週間のベネズエラ旅行計画を作成することを任された場合、このモデルは系統的に評価されたオプション、最適化された輸送コスト、選択された適切な宿泊施設を選択し、包括的な旅程を提供しました。ただし、リアルタイムで更新する必要があるコストは、実際の情報に基づいていませんでした。

クロードは高品質の結果を生み出しますが、特権も請求します。
より専用のタスクについては、Minimaxは、Manusに匹敵する機能を備えた専用エージェントタブを提供します。これは、ChatGptとClaudeが一致していない機能性です。このプラットフォームは、これらのエージェントをテストするために1,000の無料AIクレジットを提供しますが、これは軽いテストタスクに十分です。
拡張された旅行計画のためのカスタムエージェントを作成しようとしました。これは、最後のプロンプトでWeb検索機能の欠如の問題を解決しましたが、完了前にクレジットを使い果たしました。エージェントシステムは途方もない可能性を示していますが、真剣に使用するために有料クレジットが必要です。

非数学的な推論
このモデルは、リアーズでの独特の傾向を示し、時にはそれ自体の不利益をもたらすことがあります。あるテストでは、正解に到着し、過度の検証と仮説的なシナリオを通じてそれから話しかけることが示されました。
私たちは通常使用する大手のデータセットから通常のミステリーストーリーを促しました。モデルが問題を考え直し、ストーリーで言及されていない可能性を評価しているため、エンディングの結果は正しくありませんでした。思考のチェーン全体は、この種の「単純な」返信の記録である700秒以上モデルを取りました。

この徹底的なアプローチは本質的に欠陥はありませんが、ユーザーがモデルがその考え方を通して動作するのを見ると、長い待ち時間を作成します。親指を立てる機能として、ChatGptやClaudeとは異なり、Minimaxは推論プロセスを透過的に表示します。透明性は、デバッグと品質の制御を支援し、ユーザーがロジックが迷った場所を特定できるようにします。
問題は、Minimaxの全体的な思考プロセスと返信とともに、GitHub Repoで利用できます。
評決
Minimax-M1は完璧ではありませんが、無料モデルにかなり優れた機能を提供し、特定のドメインのClaudeのような有料サービスに本物の競争を提供します。コーダーはプレミアムオプションに匹敵する有能なアシスタントを見つけますが、長いコンテキスト処理やWeb対応のエージェントが必要なエージェントを必要とする人は、通常Paywallsの後ろにロックされている機能にアクセスできます。
創造的な作家は他の場所を見る必要があります。モデルは機能的ではあるがインスピレーションを受けていない散文を生成します。オープンソースの性質は、開発者がChatGPTやClaudeなどの閉じたプラットフォームで不可能なカスタムバージョン、変更、および費用対効果の高い展開を作成するため、重要な下流の利点を約束します。
これは、推論タスクを必要とするユーザーに適したユーザーに適したモデルですが、実際には主流ではない日常使用のためのチャットボットを探している人にとっては、まだ素晴らしい代替品です。
ここからオープンソースモデルをダウンロードできます。