ツール呼び出しでも大きいモデルは勝てなかった

ツール呼び出しでも大きいモデルは勝てなかった LLMにツールを持たせる(function calling / tool use)。これはエージェントの基盤技術であり、RAGの次の進化であり、ローカルLLMの実用性を左右する機能だ。 では、どのモデルがfunction callingで最も正確か。13モデルをQ4_K_M量子化でテストした2026年のベンチマーク(JD Hodges, 2026...

By · · 1 min read
ツール呼び出しでも大きいモデルは勝てなかった

Source: DEV Community

ツール呼び出しでも大きいモデルは勝てなかった LLMにツールを持たせる(function calling / tool use)。これはエージェントの基盤技術であり、RAGの次の進化であり、ローカルLLMの実用性を左右する機能だ。 では、どのモデルがfunction callingで最も正確か。13モデルをQ4_K_M量子化でテストした2026年のベンチマーク(JD Hodges, 2026)の結果は、予想を裏切るものだった。 97.5%の精度を出したのは3.4GBのモデルだった。25GBのモデルは85%で負けた。 少なくともこのテスト環境では、大きいモデルが強いという前提は成り立たなかった。 ベンチマーク結果: 13モデル全比較 全モデルQ4_K_M量子化(モデルの精度を維持しつつVRAM使用量を約75%削減する4bit圧縮)、LM Studio経由で統一環境テスト。40ケースのfunction calling精度。サイズはLM Studio上でのロードVRAM(ファイルサイズとは異なる)。 順位 モデル サイズ 精度 1 Qwen3.5 4B 3.4GB 97.5% 2 GLM-4.7-Flash 18GB 95.0% 2 Nemotron 3 Nano 4B 4.2GB 95.0% 4 Mistral Nemo 12B 7.5GB 92.5% 5 Qwen3 8B 5GB 85.0% 5 GPT-OSS 20B 12GB 85.0% 5 Nemotron 3 Nano 30B-A3B 25GB 85.0% 8 DeepSeek-R1-Distill 14B 9GB 57.5% 8 Phi-4 Mini 2.5GB 57.5% 10 Gemma 3 4B QAT 3.2GB 55.0% 11 Mistral Small 3.2 24B 15GB 42.5% 12 Hammer 2.1 7B 4.2GB 20.0% 13 xLAM-2 8B FC-R 4.9GB 15.0% 3つの衝撃 衝撃1: 3.4GBが97.5% Qwen3.5 4Bは40ケース中39ケースで成功。失敗は1ケースのみ。3.4GBはRTX 4060 8GBのVRAMの半分以下。推論モデルとEmbeddingを同時に動かしても余裕がある。 衝撃2: サイズだけでは精度を予測できない サイズ モデ

Related Posts

Trending on ShareHub

  1. Understanding Modern JavaScript Frameworks in 2026
    by Alex Chen · Feb 12, 2026 · 0 likes
  2. The System Design Primer
    by Sarah Kim · Feb 12, 2026 · 0 likes
  3. Just shipped my first open-source project!
    by Alex Chen · Feb 12, 2026 · 0 likes
  4. OpenAI Blog
    by Sarah Kim · Feb 12, 2026 · 0 likes
  5. Building Accessible Web Applications: A Practical Guide
    by Alex Chen · Feb 12, 2026 · 0 likes
  6. Rapper Lil Poppa dead at 25, days after releasing new music
    Rapper Lil Poppa dead at 25, days after releasing new music
    by Anonymous User · Feb 19, 2026 · 0 likes
  7. write-for-us
    by Volt Raven · Mar 7, 2026 · 0 likes
  8. Before the Coffee Gets Cold: Heartfelt Story of Time Travel and Second Chances
    Before the Coffee Gets Cold: Heartfelt Story of Time Travel and Second Chances
    by Anonymous User · Feb 12, 2026 · 0 likes
    #coffee gets cold #the #time travel
  9. Best DoorDash Promo Code Reddit Finds for Top Discounts
    Best DoorDash Promo Code Reddit Finds for Top Discounts
    by Anonymous User · Feb 12, 2026 · 0 likes
    #doordash #promo #reddit
  10. Premium SEO Services That Boost Rankings & Revenue | VirtualSEO.Expert
    by Anonymous User · Feb 12, 2026 · 0 likes
  11. NBC under fire for commentary about Team USA women's hockey team
    NBC under fire for commentary about Team USA women's hockey team
    by Anonymous User · Feb 18, 2026 · 0 likes
  12. Where to Watch The Nanny: Streaming and Online Viewing Options
    Where to Watch The Nanny: Streaming and Online Viewing Options
    by Anonymous User · Feb 12, 2026 · 0 likes
    #streaming #the nanny #where
  13. How Much Is Kindle Unlimited? Subscription Cost and Plan Details
    How Much Is Kindle Unlimited? Subscription Cost and Plan Details
    by Anonymous User · Feb 12, 2026 · 0 likes
    #kindle unlimited #subscription #unlimited
  14. Russian skater facing backlash for comment about Amber Glenn
    Russian skater facing backlash for comment about Amber Glenn
    by Anonymous User · Feb 18, 2026 · 0 likes
  15. Google News
    Google News
    by Anonymous User · Feb 18, 2026 · 0 likes

Latest on ShareHub

Browse Topics

#ai (4461)#news (2255)#webdev (2175)#programming (1463)#opensource (1134)#security (1115)#productivity (1062)#prediction markets (990)#business (939)#javascript (912)

Around the Network