Adaptive Retrieval

Maruyama Lectures
17 Mar 202428:32

Summary

TLDRこのスクリプトは、アダプティブリトリーバーと呼ばれる技術の詳細な説明と、その応用方法について述べています。技術的核心は、データベースから低次元表現を用いて高速検索を実行し、その後高次元表現を用いて正確性を向上させることです。特に、検索性能の重要な指標であるMap@Kの改善に焦点を当てています。また、MRL、mre、ffkといった様々なモデルと、それらがどのように検索コストや性能に影響するかについても議論されています。最後に、検索システムの改良と最適化に関する興味深い洞察が提供されています。

Takeaways

  • 🔍 アダプティブリトリーバー(AR)は、データベースから高速で正確な画像検索を行う技術です。
  • 📈 ARは、クエリー画像に対する低次元の表出(DS)から始め、高次元の近似(2048次元)まで進化します。
  • 🚀 ARの検索プロセスは2段階で、まず200個の候補画像(K200)を取得し、次にそれらをハイライトして再ランキングを行います。
  • 🌐 検索性能を測定する指標として、Map@Kが使用され、サンプル数に応じたトップランキングの精度を求められます。
  • 📊 MRL(多尺度ランキング)モデルは、レネット50のモデルと組み合わせて、画像検索性能を向上させます。
  • 🔎 MRLとmre、ffkという3つのモデルがあり、それぞれ異なる特徴と最適な使用場面を持っています。
  • 💡 ARは、計算コストを大幅に削減し、メモリーとディスク上の計算量も減らすことができるとされています。
  • 📚 実験結果によると、ARは固定次元の表現を使用するシングルショット検索よりも効率的であり、特に大きなデータセットではその利点が目立ちます。
  • 🌟 HNSW(階層的ナビゲートスモールワールド)は、効率的なグラフベースの検索アルゴリズムであり、FacebookのANNOYライブラリーと同様の役割を果たしています。
  • 🔧 ARは、データベースの再構築やインデックス作成に時間がかかる場合がありますが、検索の速度と精度の向上をもたらします。
  • 🔗 オープンソース技術の進化と協力が、検索アルゴリズムの開発において重要な役割を果たしています。

Q & A

  • アダプティブリトリーバーの基本的な考え方は何ですか?

    -アダプティブリトリーバーは、前回の検索結果をもとに高速にデータベースから候補を選び出し、再度ランキングを行い、最終的に絞り込んだ結果を出すプロセスです。これにより、計算量やメモリの使用を大幅に削減できます。

  • アダプティブリトリーバーで使用されるK200とは何ですか?

    -K200は、与えられたクエリー画像に対してデータベースから取得する200個の画像候補のことを指します。これらは、低い次元の表現を用いて短リスト化され、次に高次元の表現を用いて再ランキングされます。

  • アダプティブリトリーバーの検索性能を測定する指標は何ですか?

    -アダプティブリトリーバーの検索性能は、Map@Kという指標で測定されます。これは、クエリー集合全体で正しいラベルを持つ最近邻の平均検索精度を表しています。

  • MRL、mre、ffkという3つのモデルは何ですか?

    -MRL、mre、ffkは、論文中で使用される3種類のモデルです。MRLは、多様な粒度での正確な検索を可能にするために設計されたモデルです。mreは、MRLと同様の機能を持つが、FFという固定長の表現を使用します。ffkは、Kの値を変更することなく、異なる次元のデータベースを構築し、検索を実行するモデルです。

  • アダプティブリトリーバーの検索コストを減らすためのアルゴリズムは何ですか?

    -アダプティブリトリーバーの検索コストを減らすために使用されるアルゴリズムは、HNSW(Hierarchical Navigating Small World)です。これは、データベースを階層的に構築し、効率的な検索を可能にするためのアルゴリズムです。

  • アダプティブリトリーバーの検索パフォーマンスはどのように評価されていますか?

    -アダプティブリトリーバーの検索パフォーマンスは、Memory-Efficient Annoyというライブラリを使用して評価されています。これは、Facebookが開発したオープンソースのライブラリで、大規模なデータセットに対するベクトル検索を効率的に行うことができます。

  • アダプティブリトリーバーでの検索において、次元のスケーリングはどのように行われますか?

    -アダプティブリトリーバーでの検索では、最初の段階で低い次元の表現を使用して候補を選び出し、その後高次元の表現を用いて再ランキングを行います。これにより、計算量を節約しつつ、正確な検索結果を得ることができます。

  • アダプティブリトリーバーの検索において、どのようなデータセットが使用されていますか?

    -アダプティブリトリーバーの検索では、ImageNet-1KとImageNet-4Kという2つのデータセットが使用されています。ImageNet-1Kは約1.3Mのデータサイズで1000クラスを網羅し、ImageNet-4Kは約4.2Mのデータサイズで4200以上のラベルを持つものです。

  • アダプティブリトリーバーの検索において、どのようなインデックス構造が使用されていますか?

    -アダプティブリトリーバーの検索においては、HNSW(Hierarchical Navigating Small World)というインデックス構造が使用されています。これは、階層的に小規模な世界を構築し、最終的にカバーするという方法で、効率的な検索を実現します。

  • アダプティブリトリーバーの検索において、どのようなトレードオフが存在しますか?

    -アダプティブリトリーバーの検索においては、計算量とメモリ使用とのトレードオフが存在します。低次元の表記を用いることで計算量を削減できますが、次元を上げることでメモリ使用が増えることがあります。また、データベースのサイズが大きくなると、検索の難しさも増すことがあります。

  • アダプティブリトリーバーの検索において、なぜアダプティブな方法が採用されるのでしょうか?

    -アダプティブな方法が採用されるのは、固定次元の表現を使用する場合と比べて、より効率的な検索が可能になるためです。データベースのサイズや検索の目的に応じて、次元のスケーリングを行うことで、計算量やメモリ使用を最適化することができます。

Outlines

00:00

🔍 アダプティブリトリーバーの検索手法と性能

この段落では、アダプティブリトリーバーという検索手法について説明されています。基本的な考え方は、以前のデータから高速で検索を行うことを目指し、データベースから200個の画像候補を取得し、それらをクエリー画像と比較して高速にランキング付けることです。このプロセスは2段階で行われ、最終的に絞り込まれたトップランキングの性能が重要視されます。また、固定次元での検索とアダプティブリトリーバーの検索の計算量やメモリ消費量の比較も行われています。

05:02

📊 データセットと検索性能の評価

この段落では、画像検索性能の3種類のモデル(エフィシア、MRL、FFK)と、それらを評価するためのデータセット(ImageNet1KとImageNet4K)について説明されています。データセットのサイズやクエリー集合の構成、そして検索の計算コストについても触れられています。また、検索コストがデータベースのサイズに比例して増加する問題と、その解決策としてのアダプティブリトリーバーの利点が述べられています。

10:05

🏅 MRLモデルとアダプティブリトリーバーの優位性

この段落では、MRLモデルがどのようにアダプティブリトリーバーを利用して優れた検索性能を達成するかが説明されています。MRLは、レネット50のモデルに基づいて学習され、データベースから適切な画像を検索する能力を有しています。アダプティブリトリーバーは、固定長の表現を使用せずに、検索の粒度を調整できるという利点を持ち、その結果、計算量とメモリ消費量を大幅に削減できます。

15:08

🛠️ データベースのインデックスと検索手法

この段落では、データベースのインデックス作成と検索手法について説明されています。インデックスは、データベースを効率的に検索するために使用されるもので、この文脈ではHNSW(Hierarchical Navigable Small World)という階層的な小世界構造が用いられています。HNSWは、データベースの検索を階層的に進め、最終的に目標とするデータを見つけ出す方法です。また、この段落では、検索エンジンの役割や、Faissという検索ライブラリーの紹介も行われています。

20:08

🌐 グラフベースの検索アルゴリズムの進化

最後の段落では、グラフベースの検索アルゴリズムの進化と、それらがデータベース検索にどのように役立つかが説明されています。HNSWやAnnoyといったアルゴリズムは、データベースの検索を高速化し、効率化するための重要な技術となっています。また、FacebookのFaissライブラリーは、大規模なデータセットに対する高速な検索を可能にし、その力はオープンソースコミュニティでも広く認識されています。

Mindmap

Keywords

💡アダプティブリトリーバー

アダプティブリトリーバーは、データベース検索において、クエリー画像と相似する画像を効率的に検索する技術です。この技術は、低次元の表記から始め、データベースから候補を抽出し、その後高次元の表現を用いて再ランキングを行います。これにより、計算量を削減しながらも検索の正確性を確保することが可能です。

💡MRL

MRLとは、マルチルートリトリーバーの略で、異なる粒度のデータベース検索を1つのクエリーで実行できる技術です。MRLは、レネット50のモデルに基づいて学習され、複数のオフワードパスを追加することなく、ワンショットで正確な検索を実現します。

💡検索コスト

検索コストとは、データベース検索において、検索を実行するために必要な計算リソースや時間の消費を指します。検索コストは、データベースのサイズや検索アルゴリズムの効率性によって左右され、低減することが一般的に望まれます。

💡Map@K

Map@Kは、検索システムの性能を評価する指標の一つで、クエリー集合全体に対して正しいラベルを持つ最近邻の平均検索精度を表します。この指標は、検索システムがどの程度正確にクエリーに対応する候補を検索できるかを示し、Kの値によって何個の候補を返すかによって調整されます。

💡HNSW

HNSWとは、ハイパルキューブのスモールワールドと呼ばれる、高次元データの検索や索引を行うためのデータ構造です。HNSWは、階層的な小規模な世界を組み合わせることで、効率的な検索を実現します。

💡ベクトル検索

ベクトル検索は、データポイントを高次元のベクトル空間にマッピングし、そのベクトルに基づいて検索を行う方法です。画像やテキストデータをベクトル空間に変換し、類似するベクトルを見つけることで、検索の結果を得ることができます。

💡リザルト

リザルトとは、検索やクエリーの結果として得られるデータや情報のことを指します。検索システムにおいては、リザルトはユーザーが求める情報を含むものとして重要であり、システムの性能はそのリザルトの正確さと関連性によって評価されます。

💡インデックス

インデックスとは、データベース検索において、データの効率的な検索を可能にするために事前に作られる構造化された情報です。インデックスは、データベース内のアイテムを高速に検索するために設計されており、その効果はデータベースのサイズや検索の複雑性に応じて異なります。

💡GPU

GPUは、Graphical Processing Unitの略で、コンピュータのグラフィック処理を担当するハードウェアです。GPUは並列処理能力が高く、大量のデータ処理に適しています。最近では、GPUの高速な処理能力を利用した機械学習や深層学習のアルゴリズムが開発されており、検索システムの高速化にも貢献しています。

💡オープンソース

オープンソースとは、ソフトウェアのソースコードが公に公開され、誰でも自由に改良や再配布ができることを指すライセンス制度です。オープンソースソフトウェアは、世界中の開発者が共同で開発・改善していくことができ、多くの場合、高い柔軟性と信頼性を持っています。

💡検索エジ

検索エジとは、検索システムにおいて、クエリーとデータベースのベクトル表現を比較し、類似度が高い順に並べ替えるアルゴリズムやプロセスを指します。検索エジは、検索結果の品質を向上させるために重要な役割を果たし、検索システムの核心的な技術の一つです。

Highlights

アダプティブリトリーバーの話題を紹介

MRL論文用務の4回まで

基本的なアプローチは前回の高速化を目指す

16次元の低い次元の表現を使用

データベースから200個の画像候補を取得するプロセス

2048次元の高容量でのクエリー画像との近さのサイランキング

最終的な絞り込みプロセス

Map@Kで測定するトップランキングの性能の重要性

MRLのモデルには3種類存在

MRLとmreの違いとFFのモデル

検索の計算コストとレネット50の1回のフドパスにかかるフロップ

アダプティブリトリーバルの理論とその応用

MRLモデルがウブスケールのデータベースに対して正確な検索を実行できる

アダプティブリトリーバルの性能と計算量のトレードオフ

アダプティブリトリーバルの検索パイプラインとその改善

検索エジンとその役割

HNSWアルゴリズムとその特徴

オープンソースの力とFacebookの検索エジン

Transcripts

play00:01

まるでマトレシカとトロピカルで今回は

play00:05

あのMRL論文用務の4回まで

play00:08

アダプティブリトリーバーの話をしようと

play00:10

いう風に思いますで大まかな話から最初に

play00:14

しようと思ってるんですけどこのアプティ

play00:17

リーバルっていうのは基本的には前回

play00:19

バクターサーチネアネイバーサーチNNS

play00:23

の一層の高速は目指したものです基本的な

play00:27

間はあの意外と簡単といは単なものでまず

play00:31

与えれたクエリー画像に対しては16次元

play00:34

のような低い次元の表これDSしてますを

play00:38

用いてデータベースから例えば200個の

play00:40

画像の候補を取得しますこれをショート

play00:43

リストK200って呼んでますこれはこう

play00:47

いうのは

play00:49

あのあのベニングの原が低い分だ高速に

play00:53

可能にありますで2段階で次に

play00:57

この取得した200個の画像に対して今度

play01:00

はあの2048円とかまそのギリギリ高い

play01:05

容量で

play01:08

でクエリー画像との近さのサイランキング

play01:12

を行いますでこのこが高次元の2048

play01:18

次元ですけれどもあの200画像ぐらい

play01:22

だっったら素朴に再ラク付けするだけだっ

play01:24

たら400フロップ費かからないという

play01:28

ことですねでそして最終的に絞り込みを

play01:31

行いますで実世界のシナリではトップ

play01:35

ランキングの性能が重要なんで軽が限られ

play01:38

Kとの要するにあのサンプルのあの数です

play01:41

ねこのMap@Kで測定するとで最初から

play01:46

固定次元後でねFFって言われてます

play01:49

けれども固定次元最初から2048次元で

play01:54

検索するよにでそれでシングルショットで

play01:57

検索するよにも計算量とめに大幅に向上

play02:01

することが分かりますでま後で色々出て

play02:05

くるんですけれもそのいろんな言葉が出て

play02:08

くる平均これもどう約しいいかミン

play02:11

アベレージプレシジョンアベレージもミ

play02:14

同じようなもんですけれどもあの要するに

play02:16

アベレージ性格差の平均をまた平均を取っ

play02:20

たものこれMapこれは基本的な

play02:23

メトリックスになってますねで精度PK

play02:25

ってのはそのコレクトプレッド長崎の

play02:30

ショートリストを用いてクエリー集合全体

play02:34

で正しいラベルを持つえ最近棒の平均検索

play02:39

でそれをまた平均取ったものですねでこう

play02:43

いうのででこの辺があの後ろにあの40

play02:48

コード表が出てくるんですがその意味が

play02:51

分からないとでこれあの大体このグリーン

play02:55

の枠で囲ってあるところは後で表図を読む

play02:59

上では多分役に立つことになると思います

play03:03

でmlrのモデルなんですがあの基本的に

play03:06

は3つありますMRLってやつとmre

play03:10

ってやつとffkってやつですMRLと

play03:14

mleの違いはあの先ほどのレネットの

play03:18

あのサムみたいにこう実のあのCNな

play03:23

けれど

play03:24

もでそこのところのFC層この関数

play03:29

ちょっと今回省略しちゃいましたけども

play03:31

アルゴリズムあんまり不してもしょうが

play03:33

ないなと思ってあのそこエフィシアのこう

play03:37

フラグを下ろしたやつですねでまrle

play03:40

ってそこのとこにあのフ基本的同じ関数な

play03:44

んですけれどもそのフラグがシントが立っ

play03:46

てるか立ってないかでMRLのでFFって

play03:50

のはこれはあれですねあの若正直にその

play03:53

固定であのKを決めうち

play03:58

813248だとその半分半分半分半分と

play04:02

いうような対数的にあの異なる系でで作っ

play04:09

たモデルをあのFFと呼んでますでKはだ

play04:13

からffkの経はだからその表現サイズを

play04:16

表すことになりますねでこれもだからあの

play04:21

表の中にたくさん出てくるんでこれもあの

play04:25

名前は覚えといた方がいいと思います

play04:28

でまこっからあの要するに論文即して話を

play04:33

し4の3のリトリバルっていうところを

play04:38

そのまま説明していきたいと思いますで

play04:41

リトリーバールっての基本的にはその最近

play04:44

棒探索NNあのSですねでこれがまこれは

play04:52

あの前回簡単にあのバクターリサーチ

play04:56

バクターサーチっていうのは何をする

play04:58

かって話でしたと思いますけれどもでこれ

play05:02

で時代学習されたレネット50のモデルと

play05:05

画像検索性能をこれ今見たに3種類あるん

play05:09

ですね

play05:11

あの

play05:13

あのなんだ

play05:16

あのあのエフィシアと

play05:21

あのあとifってやつの3種類なんですが

play05:25

それはモデルですねもう1つは別にあのの

play05:29

データセットをターゲットしてるのかって

play05:32

いうと仕様にイメージネット1Kっていう

play05:34

のとイメージネット4kを用いて説明して

play05:37

ますこれもこうですねジネット1Kっての

play05:40

はデータサイズは約

play05:42

1.3mでクエリー集合は1000クラス

play05:46

を網羅した50kmのサンプルで構成され

play05:48

ていますイメージな4kっていうのは

play05:51

データサイズは約

play05:53

4.2mちょうど1件の4倍ぐらいですね

play05:57

クリグはこれはだから要するにラベルが

play06:00

あの要するに4200以上があるでそれを

play06:04

漏らした200kgのサンプルこれも大体

play06:08

4倍になってるわけですねそれがデータ

play06:10

セットとしてあの使われてるわけこれも

play06:14

名前覚えてと思ですねこれと先ほどの

play06:17

モデルの

play06:18

組み合わせですねMRLとMRLとffk

play06:23

ってのは基本的なそれの縦横で大体できて

play06:26

こと持ってけばいいと思いますで検索の

play06:30

計算コストなんですがレネット50の1回

play06:33

のフドパスに4gフロップかかると言い

play06:36

ますただそれでイメジネット1Kに対し

play06:40

正確な検索は1エリア2.6gフロップ

play06:45

かかるで検索のオーバーヘッドは総行数の

play06:49

40%ですが検索コストはあの

play06:52

データベースのサNと言われたやつが

play06:54

大きくれて直線的にリニアに増加してき

play06:57

ますイでは正確な検索しようと思いこれは

play07:02

ボトムネックになって1クエリーあたり

play07:05

8.6gフロップこれだとメモリーや

play07:09

ディスク上もこれだけの計算量だボルネに

play07:13

なっちゃいますねでまそういう意味であの

play07:17

ほとんどの実世界のアプリケーションでは

play07:20

正確な計算コストってのはあのコストで

play07:24

言うとdnoのDNDとNをかけたもの

play07:28

ですねこれも回お話したと思いますでだ

play07:31

けどHNswwのようなあのアロメネレス

play07:37

ネバこれannsと言いますがでこれで

play07:41

置き換えるとコストはDlogNでガとn

play07:45

のとこはLNなるんでガクンと下がるん

play07:48

ですねみんなこれでやろうということです

play07:50

で改めてその検索の性能を見てみるとま

play07:54

基本的にはその事前に学習されたモデル

play07:57

から表現を用いてクエリーと同じクラスの

play08:01

属する画を検索する

play08:03

ことでここでまあの平均制度平均平均制度

play08:10

Mapってやつですねと実行あの上から実

play08:15

個あの集めてその検索性の比較しよという

play08:18

やつ単位はMロップスですね

play08:22

で全ての埋め込みは単位性化されてl2

play08:26

メトリックス距離

play08:28

メトリックス立距離ですねそれであの検索

play08:32

されるってことを言ってますでそのKも

play08:36

色々動くんですがKは10個25個50個

play08:40

個のMAPKのKこれがだからサンプルの

play08:45

数ですねこれとその時間をとその他をあの

play08:51

付録E付録が長いんですよね表も多いしん

play08:56

でまあ大体あの何を言ってるか大筋が

play09:00

分かればいいのかもしれませんでこの図7

play09:03

っていうのはイメージネット1Kで

play09:06

レネット50の

play09:09

MP@マ10個選ぶまあの1個選んでも

play09:15

いいんです実を選んでこれをMRLmle

play09:20

FFまだあるんですねブルネットワークと

play09:24

SVDでこれちょっと説明略しちゃいまし

play09:27

たけれもまそれを

play09:30

あのあの比較しなものこういう表なんです

play09:34

けれども大事なこの赤い四角で囲ってあり

play09:37

ますけれどもこの要するにあのブルー濃い

play09:42

ブルーのやつがmrそれからえっと破で

play09:46

三角のオレンジのやつ

play09:48

MRLでそしてFFFFは当然固定長で

play09:54

やってるんです近いこの3つがま比較の

play09:57

対象なんですがあのサイズを落としてくと

play10:01

えっと下のSVにスリムネットの白

play10:04

ランダムF白どんどん落ち込んできますね

play10:08

あの次元が高くなればだけどあのもう早い

play10:13

ところ大体

play10:14

256もっと高いとか落ちてるのかな

play10:19

あのどんどん下に落ちてくんですけれども

play10:22

上に上げたこの3つについてFは当然です

play10:25

ねあの固定調であのあのエンディング計算

play10:30

してるんでそれに近づくのは当然だと思い

play10:33

ますけどもFFよりもむしろあの成績いい

play10:37

んですねこのあの深いブルーの方がで

play10:41

マリシ表現が1番生後は高くてまベスナに

play10:45

なってるFFよりも最大3%優れているで

play10:50

ま分類と同様にあの他のやつはですね

play10:55

256を下回るとあの大幅低下するという

play11:01

これはまた後の付録にもこのあのイメージ

play11:05

ネット4kのこれはイメージネット1Kの

play11:07

例ですねまだから全然だから256以下で

play11:12

はほと使いもならなくなってくるってこ

play11:14

ですねでそういう意味ではMRLのモデ

play11:17

ルっていうのはウブスケールの

play11:19

データベースに対して複数のオフワード

play11:23

パスを追加することなくてもワンショット

play11:25

で様々な粒度で正確な検数を実行すること

play11:29

できるでFFはあの独立したデータベース

play11:33

をあの要するにベンディングの次元ごに

play11:39

あのたくさん作るわけですよそれはその

play11:43

保存や切り替えに膨大なコストのかこれは

play11:46

実用的じゃないま比較のベーストラインと

play11:49

して比較するにはいいと思いますけれども

play11:51

実用のようには立たないということだと

play11:55

思いますまト表現とこのアダプティブ

play11:58

リトリーバル低いのであの候補を選んでま

play12:02

それだけ性格とか分からないんで個や

play12:05

200個の画像だったもの高い000とか

play12:08

2000の次元のやつで戻してあのもう1

play12:12

回近いかどうかあのクレリに近いかどうか

play12:15

をさあの再ランキングあのあのラキ付けを

play12:20

もう1回

play12:22

やり直しでまそうすることでこのアダプト

play12:26

リトーバルっていうのはフルキャパシティ

play12:29

表が使う必要性をなくす使うとしてもあの

play12:33

最初の段階で見つけたあの100個なり

play12:37

200個のあのものに対してあのラキを

play12:41

すればいいだけだっていうことですねま

play12:45

あとそこからこのannsパイプラインの

play12:48

あのベクトラシ技術のこれはトシカ表現と

play12:52

よくあの相性が良くてさらに改善でき

play12:56

るって話をしてます改めそのまアィあの

play13:00

リトリーバルのこの論文の中の記述を見て

play13:03

います当れたクエリーガードにてDS16

play13:06

のような定次元を表現を持ちて

play13:09

データベースから画像のシトリトK=

play13:11

200200個の画像を定次元の表現を

play13:15

持ちてピックアップするんですねでそれを

play13:18

もう1度あのDrにあのSが最初の

play13:22

スタートなのかなRは何でしょうリザルト

play13:26

かしらあの最終的なやつはあのメにあの

play13:31

次元を上げてま2000この例だった

play13:34

248だたあのかレプテーション

play13:38

ラーニングしたんでしょうね略2048の

play13:42

ような高容量の表現を用いてもう1回

play13:45

並べ替える並べ替えるってかそのその

play13:48

クエリー画像に近いやつのもう1回調べる

play13:50

ただこれは全部なめる必要なくてのK=

play13:53

200だったら200個の中でやればいい

play13:55

んで簡単できちゃうって話ですで世界の

play13:59

シナリオではトップランキングの性能が前

play14:01

と重複してますけども重要な目でありKが

play14:05

限られた重要の流をカバーするMapアマ

play14:09

Kこれが1だったらトップ1ですねでこれ

play14:14

が5だったトップ5でもいいわけです

play14:17

けれどもでアダプティブリトリーバルAR

play14:21

と呼んでますけれどもこれは固定ジアの

play14:23

表現によるシングルショット検索でも計算

play14:26

量とメモリー大幅にあの向上するという

play14:30

ことです最後にあの他の検索パイプライン

play14:34

と同様にアダプティブ

play14:48

[音楽]

play14:59

ですけれども全ての実験についてクエリー

play15:02

アの正確な検索こ報告するけれどもでここ

play15:07

でパイプラインショートリストか

play15:09

コンポーネントこれは前回もそのバクター

play15:11

リサーチってのはいろんな仕様があって

play15:14

特にインデックスを作るという

play15:16

インデックスに当たるものまこの前のやつ

play15:19

だとコードワードと呼んでましたけでそれ

play15:24

をやるのがans特にhnsW&SWって

play15:31

いうのは変な名前かもしこれハードウェア

play15:33

ソフアだと思全然違っててHはハあの階層

play15:39

的ハアでエは何だっけナビゲートと

play15:45

スモールワールドSSWはあのスモール

play15:49

ワールドですね階層的に小さな世界を回的

play15:53

に積み重ねて絶対最終的にはカバーするん

play15:55

ですけれどもでそこをナビゲートしてあの

play15:59

目的のものを見つけるっていうこれは

play16:02

なかなか面白かったですねだ難しかった

play16:05

まだよく理解しないところあるんですけど

play16:07

もあこういうものが背後あで動いてるん

play16:12

だっていうのは多分ちょっと意識して

play16:14

もらったらいいと思うしこの辺では

play16:15

いろんな改良や改善が多分色々行われてる

play16:20

んだろうという風に思いますでこれはフI

play16:24

のところであのいろんな数字が出ています

play16:29

これは

play16:30

あのアダプティブ

play16:33

リトル適用検索と呼んでありARって呼ん

play16:36

でしてますが計算量対制度のトレードオフ

play16:40

でこれをあの固定特集にシグショットと

play16:45

比較してるでま明らかに全てのAR設定は

play16:50

様々な表現サイズによいてシングショット

play16:53

検索のフロンティアより上にあることが関

play16:56

特にイメージネット1Kでは=1616で

play17:01

見つけてDあの

play17:04

202048でも1回見つけ直すっていう

play17:07

のはこれはそのde=2048のシングル

play17:13

ショット同等の制度を用いながらこれはだ

play17:17

から128倍効率的で実際にはスピードで

play17:21

言うと14倍

play17:24

高速というこれがだからあれですねあの

play17:29

なんだあの適応的アダプティブリトリバ

play17:33

ルってやつですねただイジ4kではもう

play17:36

ちょっとあのデータセットの数がデータの

play17:41

数が多いんで16じゃちょっとあんまり

play17:44

うまくいかなくてあの64で始め

play17:47

play17:49

でやってくこの場合だったらあの理論値で

play17:53

32倍速で6倍の高速が得られたまあだ

play17:58

からイジデータが増えれば増えるほどあま

play18:02

難しさも増すということなんですねこの表

play18:05

なんですがこれ真ん中ちょっと見にくいん

play18:07

ですけれどもあのイメジ左側がイメジと1

play18:11

K右側がイメージネト4kでその真ん中の

play18:15

赤い線囲ってあるとがDSDで最初なんで

play18:19

選んででDSがあれですね最初のあの

play18:24

ユースケースっていうかあのショート

play18:27

リストを作るの大きさなんですけどもDr

play18:31

ってのがあの最終的に

play18:35

あの

play18:52

[音楽]

play18:57

リアレディベロップメントこれこのDSを

play19:00

増加させながらあのKNのシトリストを

play19:04

改良するってこなんですけれどもでDSと

play19:08

Drを指導で選択することはちょっとダサ

play19:10

じゃないかということだと思いますけれど

play19:12

もDSでショートリストまこれ低い次元

play19:15

ですねショートリストを検索してDrを

play19:18

これは要するに次元を上げながらサラク

play19:21

するだけじゃなくてショートリスの長さも

play19:24

縮小させるショート率の長さも縮小させ

play19:27

るってのは候補を絞り込むってことですね

play19:30

それを同時にやってショートリストを5回

play19:34

再ランクすることで計算を得るっていう

play19:36

手法を使ってるって話をしてましたあまり

play19:38

詳しくこれの効果はちゃんと僕もあのどっ

play19:42

かに気があったと思うんだけどちゃんと見

play19:44

てまあ気持ちは分かりますいちいちDSD

play19:47

指導であるよりも

play19:49

あのランキングのカスケードをあの

play19:53

繰り返すだけじゃなくてショートリスのも

play19:55

絞り込んでくってやつを同時にやろうって

play19:57

話だという風に思いますでアペックスの

play20:00

膨大なんですけどもま重要なのはこの中で

play20:04

1つはその各データーセットデータセッ

play20:07

トってのはだからイメージネットの1Kと

play20:09

かイメージネットの4Kとかでそれぞれに

play20:13

対してデータベースを作り直してるんです

play20:15

ね検索よでデータがN項クエリーが9項で

play20:20

それに対して計算金棒のショートリスを足

play20:24

する表現サイズをDSでそうするとデータ

play20:28

スはNDS配列クエリーはqds金本集合

play20:33

はqk配列で与えられるもこれ当然で大事

play20:37

なことはあのフスとまHNswwこれは

play20:44

アラルナビゲーションナビゲータル

play20:48

スモールワールドちょっと怪しいですね

play20:50

スモールワールドですあの階層的な

play20:52

スモールワールドではどんどんあの

play20:55

絞り込んでくってこのフェイスとをあの

play21:00

HNswwを使ってるのが特徴なんです

play21:04

これはだからあの前回見てやるとコード

play21:07

ワードって言ってましたけども

play21:08

インデックスを作るデータベース

play21:10

この

play21:13

ベクトルから構成され

play21:15

てるデータのデータベースを検索するため

play21:18

インデックスを作るこのフェスとHN

play21:21

swwを使ってるってことですねでこれは

play21:26

フェスインデックスフラットで

play21:29

あのゆっくりと距離を使ってモラ的にあの

play21:34

金棒を検索するそれからあの

play21:38

インデクスhnswこれは近事的あの検索

play21:43

を行うていう話をしてますで特に断りの中

play21:48

M=32のhnswを使用して以後

play21:52

hnsw32と呼ぶでまこれはあのあのえ

play21:58

SSはGPUにフェスでは実はGPU逮捕

play22:03

できてるんですけれどもhnswはこれは

play22:06

ヒリを導入したら色々複雑なのかそのせな

play22:10

のかあるいはGPUに乗りに行くよく僕は

play22:12

分かんないですけどもGPUサポートが

play22:15

ないためそれはCPUでやってるって話を

play22:18

してますでこれはあのインデックス構築の

play22:22

ための時間あるいはインデックスサイズと

play22:24

そのあのそれをインデックスを作るための

play22:28

手ですねそれの表がこれもだからアニクス

play22:32

の経営で詳しく書いてあるという風に書い

play22:35

てありますでちょっと最後にあのこの

play22:41

マトリカプレラーニングの

play22:44

検索であの特にあの大事な役割を果たして

play22:51

いるエンジンあの検索エジですねこれ今見

play22:54

たよフェスとあのhnsってやつなんです

play22:58

けもそれ簡単に紹介しようという風に思い

play23:01

ますこれ難しいんで僕もよくわからないと

play23:04

これまず1つはですねフスての実は

play23:07

オープンソースでFacebook多分

play23:10

FACEスっていうのがすご読むんだろう

play23:12

と思いますけれどもこれFacebook

play23:15

のあのエリサーチが作ったものですねで

play23:21

クラスタリングのためのライブラリーだ

play23:23

検索あのあのグループにまとめてそこに

play23:27

最初の検索落ちるっていうやつですねで

play23:32

これは

play23:33

あの大活躍あのワトか中で大活躍してるん

play23:40

ですねこれは論文こういう論文があります

play23:43

でそのインデックス構造を作

play23:47

るっていうのをこのフェンスは多分あの

play23:49

GPUを使ってあのインデックスを作

play23:52

るってのは多分優れてるんだとこれ

play23:54

2017年の論文ですけどもどんどん

play23:56

バージョンアップしてて

play23:59

であのまこれぐらいのパワーですね例えば

play24:05

9500万画素に対するケグラフの構築を

play24:09

30分10億個ベクトル連勝グラフの構築

play24:13

を12時間未満で可能にしてでこれを

play24:17

オープソースに来たまか強力なエンジン

play24:20

ですねだからまもすごいと思ったんですが

play24:23

トシかってそういう意味ではそういう

play24:27

Facebookいや昨日のあの

play24:30

あのGoogleベクタサーチのブログっ

play24:34

てのよく見たらMicrosoftの

play24:38

リサーチが出してるんですねGoogle

play24:41

ののログでだから結構いろんなとが協力

play24:44

し合ってやってるオープンソースの力だと

play24:48

いう風に思いますそれからhnswこれ

play24:52

ちょっと意外だっったのこれあのロシアの

play24:54

人ロシアの研究

play24:55

者ですねこれもなかなかテクニカルには

play24:59

あの素晴らしいような完全なグラフベース

play25:03

であのグラフあの荒い段階からどんどん

play25:08

絞り込んでくってやつをやってるんですが

play25:10

これもどんどんバジアンプして最初の

play25:13

2016年で今2010あの2018年

play25:17

まであと終えましたけれどもこの辺の一部

play25:21

はだからもうフェースに取り込まれてるん

play25:23

ですねオープンソの世界でロシアの研究者

play25:27

が発表したこのあのHhnswについても

play25:32

これは今はフェスフェスは17年2017

play25:35

年始まったんです

play25:37

かこのフェスの手法フェスじゃねえや

play25:40

フェスのオープンソース実装ジハブの中に

play25:44

このhnswtterのライブラも

play25:47

ちゃんと取り込まれたでそれを丸々だから

play25:50

あのマトしか利用してるんだと思いますで

play25:55

まこれはですねスケールのまそれはあのH

play26:00

階層的なあのNSあのナビゲートスモール

play26:05

ワールドでこれはですねでま上位層から

play26:10

あの検索を開始してで対数的な複雑の

play26:15

スケーリングはこういう絵がありますこれ

play26:17

面白いですねこの赤いところから始まっ

play26:20

最高位から始まってこう最初は

play26:23

あのブルーに向かってこれをグリーに

play26:27

見つけようとするんですがでレヤを変える

play26:30

と今度は違うターゲットに向かってってで

play26:33

レヤが深まるにすれてノドの活は多くなる

play26:37

んですがターゲットはでもあのあの

play26:40

はっきりしてるんですねでこういう風に

play26:43

階層に分けることによってまあの前回の

play26:46

やつだとあのコードワードが2次元の場合

play26:50

でしたけれども同じ平面上にあったんだ

play26:53

けどこれ外で分けちゃおうっていう話です

play26:56

面白そうですね

play26:59

でヒリスクもあってでこういうことを書い

play27:02

てましたけれどもあの2つのクラスターに

play27:05

金棒選択するためにどういう比率がある

play27:08

かっていうとこれはですねクラスターに

play27:11

新しく要素が挿入され当然あるわけでその

play27:15

場合はあのこうすればいいって話が書いた

play27:18

だからよく考えられてるしでそういう技術

play27:23

がまそのだからあのデータベースの

play27:27

インデクスもいろんな技術があるん

play27:30

でしょうけれどもそういうグラフ検索の

play27:32

インデクシング作成についても基本的には

play27:36

グラフベースでいろんなアルゴリズムが

play27:38

開発されて

play27:39

るってことですねだからマトリしか面白

play27:42

いっていうだけじゃなくて本当はこういう

play27:45

とこに関心を持ってあのまま新しい

play27:49

アルゴリズムを考える人がいてもまいるん

play27:51

でしょうねそういう風に考えてもらえば

play27:55

いいと思いますえとちょっとあの

play27:59

アルゴリズムあの細かい話してもしょうが

play28:01

ないっていう気がしてきて実際にあの今度

play28:04

は話が変わるんですけどオーAIのあの

play28:08

エンディング3ってのはまさにこのマルシ

play28:11

が使ってるんですよで実際にあそこのは

play28:14

実際のサンプルコードも多いしあのスケス

play28:18

も色々出てるんで実践的な利用のしエン

play28:21

ベンディングの利用の仕方としてマリシを

play28:25

利用したあのエディングのプログラム手法

play28:28

の話を第2章でやりたいという風に思って

play28:31

います

Rate This

5.0 / 5 (0 votes)

Related Tags
検索技術アダプティブリトリーバルMRLモデルベクトル検索効率化機械学習データベースグラフ検索インデックスオープンソース
Do you need a summary in English?