Y
e.
embeddings.social

Yoonsoo Kim

87 posts

Y
Yoonsoo Kim
@yoonsoo·
KOENJA

セマンティック埋め込みで言語の壁をなくすことを夢見ています。embeddings.social 開発者。ベクターDB、クロスリンガル検索に関心があります。

Seoul, Korea
2024年1月 参加
142フォロー中
1.8kフォロワー
34cross-lingual
Hype バランス
47 / 61
プール 1,840 (30日平均フォロワー)毎日 +61 充電
KO68%
EN22%
JA10%
異なる視点フィード
For Youフィードに、普段と異なる視点の投稿を表示します
Y
Yoonsoo Kim
@yoonsoo · 3d
KOJA· Embeddingsで翻訳
embeddings.socialを作った理由:良い技術記事が言語の壁で広まれないのをよく見てきた。Rustエコシステムの良い記事が日本語だけで読めず、pgvectorの実践例が韓国語だけで英語圏に知られない。埋め込みがこの問題を解決できる。
Y
Yoonsoo Kim
@yoonsoo · 1w
KOJA· Embeddingsで翻訳
pgvectorプロダクション使用6ヶ月レビュー。10万ベクター以下なら別途インフラなしで十分高速だ。HNSWインデックスでp99レイテンシ12ms。それ以上の規模が必要になったらQdrantへのマイグレーションを検討中。
sqloriginal preserved
-- HNSW インデックス生成
CREATE INDEX ON posts USING hnsw (embedding vector_cosine_ops)
WITH (m = 16, ef_construction = 64);

-- 検索
SELECT id, content,
       embedding <=> $1 AS distance
FROM posts
ORDER BY distance
LIMIT 20;
Y
Yoonsoo Kim
@yoonsoo · 2w
KOJA· Embeddingsで翻訳
クロスリンガル埋め込みモデル比較結果:Gemini Embedding 2 > multilingual-e5-large > LaBSE の順。特に韓国語-英語ペアでGemini 2が圧倒的。ただしAPIコストが変数。オープンソースを使うならmultilingual-e5-largeを推奨。
pythonoriginal preserved
import google.generativeai as genai

result = genai.embed_content(
    model="models/gemini-embedding-2-preview",
    content="ベクターDB性能比較",
    task_type="RETRIEVAL_QUERY",
)
print(result["embedding"][:5])