AIZEN NEWS

Nous ResearchのNousCoder-14B、Claude Codeの話題と並ぶオープンソースのコーディングモデルを公開

2026.01.07 VentureBeat
オープンソースAIスタートアップのNous Researchは、新たな競技プログラミング向けモデル「NousCoder-14B」を公開した。Nousによれば同モデルは、Nvidiaの最新B200 GPU 48台を用いてわずか4日間で学習され、独自の評価で複数の大規模な商用モデルに匹敵または上回る性能を示したという。NousCoder-14BはLiveCodeBench v6で67.87%の正答率を記録し、学習に用いたベースモデル(AlibabaのQwen3-14B)から7.08ポイントの改善を達成したと報告されている。

今回の発表は、Anthropicのエージェント型プログラミングツール「Claude Code」が年明け以降注目を集めているタイミングで行われ、AI支援によるソフトウェア開発が急速に進化していることと、各社がこの領域で競争していることを改めて示している。

Nousの公表は単なるモデル重みの公開にとどまらない。学習に使った強化学習環境やベンチマーク群、学習ハーネス(Atroposフレームワークに基づく)を含む完全なスタックをオープンソースで公開しており、十分な計算資源を持つ研究者は再現や拡張が可能だとされる。

モデルの主な開発者は研究員のJoe Liで、彼は自身の競技プログラミング経験(Codeforcesでのレーティング向上)とモデルの性能向上軌跡を比較している。報告では、モデルは約1600–1750相当から2100–2200相当へと改善したと推測され、彼自身が14〜16歳で約2年かけて達成した飛躍と同等の変化を学習モデルは96時間で実現したと述べられている。ただしLiは重要な留保として、人間はおよそ1,000問を解いていたのに対しモデルは24,000問を必要とした点を挙げ、現時点では人間の方がサンプル効率で優れていると指摘している。

学習手法の要点としては、生成したコードを実行し正誤(verifiable rewards)で評価する強化学習フローが採用され、Modal上でサンドボックス実行を並列に回して平均で各問題に数百のテストケースを検証した。時間・メモリ制約はそれぞれ15秒/4GBに設定された。学習ではDAPO(Dynamic Sampling Policy Optimization)を用い、動的サンプリングにより有用な学習信号が得られない例を除外したほか、コンテキスト長を段階的に拡張する「iterative context extension」(32,000トークン→40,000トークン、評価時は約80,000トークン)を導入した。さらに推論と検証を重ね合わせるパイプライン化や非同期並列化でGPU利用率を最大化している。

Liの技術報告には別の重要な指摘もある。NousCoder-14Bの学習に用いられた24,000問は、「標準化された形式で入手可能な検証可能な競技プログラミング問題」のかなりの割合を占めており、このドメインでは高品質な訓練データが既にほぼ枯渇しつつある可能性が示唆されている。これに対しLiは、合成データ生成やデータ効率の高いアルゴリズム・アーキテクチャが今後の重要な研究課題になると結論づけ、問題生成と自己対戦(self-play)を組み合わせることでデータ不足を解決する可能性を示唆している。

Nous Researchは2025年4月に暗号通貨系ベンチャーのParadigmが主導するシリーズ投資で5,000万ドルを調達し、報道によれば総調達額は6,500万ドルに達している。Hermes 4やDeepHermes-3といった以前のリリースと合わせ、オープンソースで商用代替となり得るモデルを展開している点が同社の特徴だ。一方でブランドのビジュアルやベンチマーク最適化をめぐる懐疑的な声や、実装上の詳細(例えばエージェント志向かワンショット型か)を巡る技術的な議論も見られる。

今後の改善点として研究チームは、単一の最終報酬ではなくコンパイルエラーや部分的なテスト失敗など中間フィードバックを取り入れるマルチターン強化学習、出力長の制御、そして前述の問題生成と自己対戦の研究を挙げている。NousCoder-14BはApache 2.0ライセンスでHugging Face上に公開されており、Atroposトレーニングスタックも併せて利用可能だ。報告は、機械がコードを学ぶ時代は既に到来しており、今後は機械自身が教師となる可能性が探究される段階に入ったことを示している。
関連カテゴリ
関連記事(生成AI)