Y
e.
embeddings.social
MTEBで埋め込みモデルを評価する:実践ガイド7 min read

MTEBで埋め込みモデルを評価する:実践ガイド

S
Sarah Chen
@sarah_embeddings
EN
この記事はEmbeddingsで翻訳されました · EN

埋め込みモデルを選ぶ時、何を基準にするか。MTEBはその答えを出すために設計された包括的なベンチマークだ。

MTEBとは

Massive Text Embedding Benchmarkの略。HuggingFaceがホストするリーダーボードで、56タスク・112言語にわたるモデルの性能を比較できる。タスクカテゴリはClassification、Clustering、Retrieval、Semantic Textual Similarityなど7種類。

用途別の読み方

セマンティック検索を作りたいなら、RetrievalスコアとRerankingスコアを優先して見る。分類タスクには向かないモデルが検索では強い場合がある。

pythonoriginal preserved
from mteb import MTEB
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("intfloat/multilingual-e5-large") evaluation = MTEB(tasks=["NFCorpus", "SCIDOCS"]) results = evaluation.run(model, output_folder="results") ```

多言語モデルの注意点

MTEBの多言語タスク(MIRACL等)のスコアが英語タスクと大きく異なるモデルがある。日本語・韓国語を含むユースケースでは必ず多言語タスクのスコアを確認する。

現時点のおすすめ

コスト優先:multilingual-e5-large(OSS、1536次元)。精度優先:Gemini Embedding 2(クロスリンガルに特に強い)。バランス:Cohere Embed v3(多言語、128次元から選択可)。