NASの新視点：グラフニューラルネットワーク駆動の汎用アーキテクチャ空間、ハイブリッド畳み込みとTransformerで性能向上！

著者らは、畳み込みネットワーク、Transformer、およびそれらのハイブリッドアーキテクチャを単一の柔軟なフレームワークで統一する、ニューラルアーキテクチャ探索（NAS）用の汎用検索空間であるユニバーサルニューラルアーキテクチャ空間（UniNAS）を提案しています。UniNASは、この汎用フレームワーク内で斬新なアーキテクチャを発見し、既存のアーキテクチャを分析することができます。

著者らはまた、提案された検索空間を探索するための新しい検索アルゴリズムを導入し、この空間が、同じトレーニング設定を採用した場合に最先端の手動設計アーキテクチャよりも優れたパフォーマンスを発揮する興味深いアーキテクチャを含むことを実証しています。

最後に、著者らは、再現性を促進し、NAS研究における公平な比較を可能にするために、標準化されたトレーニングおよび評価プロトコルを含む統合ツールキットを導入しています。全体として、この研究は、統一されたグラフベースのNAS視点を通じて、ニューラルアーキテクチャの全スペクトルを体系的に探索する道を開きます。

1. はじめに

ニューラルアーキテクチャ探索（NAS）は、事前定義されたアーキテクチャ[37, 51]の最適なハイパーパラメータ構成を特定したり、エッジデバイス[15, 36]での推論遅延を改善したりする上で、否定できない成功を収めていますが、著者らの知る限りでは、ResNet[13, 34, 35]またはVision Transformer[7, 10, 39]に基づいた一般的でありながら手動設計されたネットワークアーキテクチャを著しく上回る、新しいネットワークアーキテクチャを生み出すには至っていません。

コンピュータビジョン研究の多くの分野と同様に、NASの進歩は主に利用可能なベンチマークによって推進されてきました。その結果、近年、ほとんどのNAS手法[11, 17, 31, 42]は、NAS-Benchファミリー[9, 46]の表形式NASベンチマークに焦点を当てています。表形式ベンチマークは、各ネットワークの精度やその他のパラメータが事前に計算されている固定されたネットワークアーキテクチャのデータセットであるため、NASアルゴリズムは精度を得るためにネットワークをトレーニングする必要がありません。表形式データセットは、必要な計算コストを削減することでNAS研究を促進しますが、定義上、NAS手法が新しくより良いアーキテクチャを発見することを妨げます。検索空間内の最適なアーキテクチャはすでに知られており、事前に計算された精度表を参照するだけで見つけることができます。さらに、これらの表形式データセットの検索空間は通常比較的小さく、同じ構築ユニットを複数回繰り返すことに限定されています。これは、ベンチマークの作成中に各ネットワークを少なくとも1回トレーニングする必要があるためです。

トレーニング不要のNAS手法[5, 19, 22, 23, 40, 48]の出現のおかげで、ネットワークアーキテクチャをトレーニングせずにその精度を推定できるようになり、NASの計算上の制約が解消され、より大きな検索空間と斬新なアーキテクチャの探索が可能になりました。この目的のために導入された検索空間、すなわちZen-NAS [23]とAutoFormer [3]は、それぞれMobileNetV2 [33]とVision Transformer [10]である、選択された手動設計アーキテクチャブロックのハイパーパラメータ（深さ、幅、拡張比など）を変更することによって作成されました。各検索空間は与えられたアーキテクチャブロックのハイパーパラメータを変更することによって作成されるため、これらの検索空間を使用しても、異なるトポロジーや構築ブロックを持つネットワークを見つけることはできません。その結果、CoAtNet [7]などの手動設計されたアーキテクチャは、AutoFormer検索空間で知られている最適なアーキテクチャ[2]を依然として上回っています。

本稿では、汎用ニューラルアーキテクチャ空間（UniNAS）と呼ばれる斬新な検索空間を導入することにより、上記の限界に対処することを目的としています。この検索空間は汎用的な方法で設計されており、特定の既存のアーキテクチャに偏ることなく、すべての最先端の手動設計されたアーキテクチャがこの検索空間内に含まれるようにしています。したがって、この検索空間は、既存のアーキテクチャのさまざまな組み合わせやまったく新しいアーキテクチャの探索を可能にするだけでなく、最先端のネットワーク、そのトポロジー、および設計選択肢を統一されたフレームワーク内で体系的に分析することも可能にします。

さらに、著者らは、提案されたUniNAS検索空間を探索するための新しいアーキテクチャ検索アルゴリズムを提案しています。最先端のトレーニング不要NASエージェント[40]と組み合わせると、検索空間のいくつかのステップを探索した後、著者らは、同じトレーニングプロトコルとサイズ制約を使用した場合に、現在の最先端のアーキテクチャよりも優れたパフォーマンスを発揮する斬新なネットワークアーキテクチャであるUniNAS-Aを発見しました。これは、この検索空間にさらなる探索に値する興味深いアーキテクチャが含まれていることを示しています。

最後に、そして同様に重要なこととして、著者らは、提案された検索空間の探索、検索空間内の任意の点のPyTorchネットワークモジュールの作成、そして最も重要なこととして、最終モデルを作成および評価するための一貫した明確なトレーニングプロトコルとトレーニングコードを提供するツールキット（簡単にインストールできるPythonパッケージとして）を提供しています。これは、再現性とNAS手法の公平な比較にとって非常に重要です。なぜなら、著者らは通常、標準データセット（ImageNetなど）での最終精度を報告するものの、異なるトレーニングスケジュール、異なるハイパーパラメータ設定とデータ拡張技術を使用したり、既存のより大規模なモデルを教師ネットワークとして大幅に多くのデータで事前トレーニングしたりすることがあり、これにより、提案されたアーキテクチャ間の公平な比較はほとんど不可能になります。

要約すると、著者らはコミュニティに以下の貢献をしています。

1. 著者らは、UniNASと呼ばれる新しい汎用NAS検索空間を提案します。この検索空間は汎用的な方法で設計されており、多くの斬新なネットワークトポロジーを包含するとともに、既知の手動設計されたアーキテクチャも含まれており、これにより、統一されたフレームワーク内でネットワークトポロジーの体系的な分析が可能になります。

2. 著者らは、提案された設計空間を探索するための新しい検索アルゴリズムを導入し、この空間が、UniNAS-Aなどの興味深い斬新なアーキテクチャを含み、複数のタスク（分類、検出、セグメンテーション）で手動設計された最先端のアーキテクチャよりも優れていることを示しています。

3. 著者らは、提案された汎用検索空間の採用を支援し、NAS手法の再現性を高め、将来のNAS研究を促進するために、標準化されたトレーニングおよび評価プロトコルを含む統合ツールキットを提供します。

2. UNINAS

本セクションでは、UniNAS検索空間について説明します。まず、そのコアコンポーネントであるUniNASブロックについて説明し、次に全体的なネットワークアーキテクチャについて説明し、最後に既存の検索空間との比較を通じて主な違いと改善点を強調します。

A. UniNASブロック

a) 基本操作：著者らの目標は、さまざまなアーキテクチャにまたがる検索空間を作成することです。そのため、著者らはUniNASブロックの定義において汎用的な設定を採用し、アーキテクチャ検索プロセスにおいて最大限の柔軟性を実現しつつ、現代の階層型ネットワークと互換性のある実用的な制約を維持しています。具体的には、UniNASブロックは、1つの入力ノードと1つの出力ノードを持つ任意の有向非巡回グラフ（DAG）として定義され、各中間ノードは1つの基本操作を表します。基本操作には、畳み込み層（深層分離、点単位、標準など）、プーリング、Mask、正規化要素、さまざまな形式の行列乗算とドット積、複数の入力または出力エッジを持つ操作、および非線形関数が含まれます（表1参照）。これにより、このブロックは多様な局所計算パターンを表現できると同時に、一貫したインターフェースプロパティを維持します。

表1のほとんどの基本操作は確かに非常に基本的であるため、これ以上の説明は不要ですが、著者らは、より複雑な操作のうち2つを具体的に紹介します。テンソルに対し、著者らは次のように定義します。

と、およびとに対し、

、、に対し。Matmul1とMatmul2は乗算関係を表しますが、要素ごとの乗算とは異なり、すべてのチャネル情報を結合し、Softmaxと組み合わせることで、アテンションメカニズムを生成することができます。しかし、著者らは再び、可変性はこれにとどまらず、任意のグラフが可能であり、次元のみが重要であることに注意しています（！）。

表1：UniNASブロックの基本操作著者らは、入力サイズがの場合の1回の順伝播におけるパラメータ数（Params）と浮動小数点演算回数（FLOPs）を報告しています。一部のノードは形状を変更したり、複数入力または複数出力モードで動作したりします。は、同じ形状の個のテンソルを表します。

b) ブロック計算グラフ：著者らがこの汎用公式に課す唯一の制約は、1) ブロックの入力と出力の次元が同じであること、および2) DAG内の隣接ノード間の次元が一致すること、これによりテンソルがグラフ全体に正しく伝播されることが保証されます。この制約により、より大規模なアーキテクチャへの統合が簡素化されます。ブロック間での一貫した特徴マップの形状は、順伝播中の動的な形状処理の複雑さを大幅に削減し、さまざまな検索されたブロックでの安定したトレーニングを可能にします。一貫した次元を強制することにより、著者らは追加の射影を自動的に挿入する必要性を回避します。これは、検索されたトポロジーの分析を妨げる可能性があります。

著者らは、現代の深層学習アーキテクチャで一般的に使用されている多くのモジュール、例えばResNet [13]とその派生バージョンの残差ブロック、Transformerベースのモデル[7, 10]における相対位置バイアスありまたはなしの自己アテンション層、適応型チャネル再キャリブレーションのためのsqueeze-and-excitationモジュール[16]、およびEfficientNets [34, 35]で使用されているinverted mobile bottleneck構造は、すべて著者らのUniNASブロックのインスタンスとして表現できることを強調しています。これらのモジュールをUniNASブロック形式にする方法の例には、正確なグラフ構造とノード操作が含まれ、図3で確認できます。

しかし、著者らは読者がこれらの古典的な例に限定されないことを奨励しています。もちろん、より多様なネットワークを想像することも可能です。検索空間には、畳み込みと非線形性をチェーン状に単純に積み重ねるだけでなく、ツリー状構造、選択的アテンション統合を備えた並列パス、畳み込みと自己アテンション層のハイブリッドな組み合わせも含まれており、これらすべてが1つのUniNASブロックとしてカプセル化されています。これは、ブロック設計の表現能力を示しながら、検索空間全体で統一的かつ一貫した表現を維持しています。

B. UniNASネットワーク

最終的なネットワーク構造は、異なるUniNASブロックを単一のチェーンに順次スタックします（図2参照）。これは、現在の最先端ネットワークの一般的な設計に従っており、[7, 13, 35, 39]と同様の階層型バックボーンネットワークを持ちます。ステム段階（S0）は畳み込み層を使用して入力をダウンサンプリングし、その後に複数の段階が続き、各段階には複数の異なるUniNASブロックが含まれ、最後にグローバル平均プーリングと全結合層からなる分類ヘッドがあります。UniNASブロックは次元を不変に保つため、各段階の開始時に、空間次元はストライド2の標準最大プーリングによって減少し、チャネル数はチャネル投影1によって増加します。前述のように、UniNASブロックの構造（すなわちグラフ表現）はネットワーク全体で変化し、これによりネットワークのトポロジの可変性が向上します。段階数、ブロック数、および空間次元とチャネル次元はスケーリングハイパーパラメータとして機能し、さまざまなネットワークスケールパターンを探索できます。

表2：NAS検索空間の比較

UniNASは最も多様な種類のネットワークをカバーしており、ブロックトポロジーを制限せず、斬新なアーキテクチャの探索を可能にします。著者らはまた、各空間で既知の最適なネットワークのImageNet-1kでの分類精度も報告しています。比較可能なトレーニング設定での報告結果が見つからなかった場合、著者らは表3と同じトレーニングプロトコルを使用して、与えられた検索空間の既知の最適なアーキテクチャをトレーニングしました（†で示されています）。

C. 既存の検索空間との比較

既存の検索空間には、トポロジの可変性が制限されていることと、スケーラビリティが低いという2つの主要な制限があります。したがって、この分野で広範な先行研究があるにもかかわらず、これらの空間で発見された最高のパフォーマンスを持つモデルは、UniNASを使用して得られたアーキテクチャと比較して、依然としてパフォーマンスが劣っています（表2参照）。

[26, 49]のDARTS法などのアプローチは、重み共有型スーパーネットに依存しており、これらは計算コストが高く、バイアスのある勾配推定を生成し、信頼性の低いアーキテクチャランキングにつながります。Transformer [4]に拡張されると、自己アテンション層のコストにより、これらの検索空間は厳しく制限され、しばしば検索が「アテンションを使用するか、使用しないか」という二者択一に単純化されます。これらの制限があるにもかかわらず、DARTSベースのネットワークは小規模な設定に限定されており、ImageNet-1kの精度は（表2）よりも低いです。

NAS-Bench [9, 46]などのベンチマークは、根本的なスケーラビリティの問題に直面しています。可能なネットワークの数は操作の数とともに指数関数的に増加するため、網羅的なトレーニングは玩具空間でのみ実行可能です。そのため、これらのベンチマークは、CIFAR [18]やImageNet16-120 [6]などの小規模なデータセットで評価される簡略化された畳み込みネットワークに限定されています。ImageNet-1kでは、結果が存在しないか、報告されているパフォーマンスが最先端よりもはるかに低く、アーキテクチャ空間が有限で完全に探索されているため、さらなる改善の余地はありません。

Zen-NAS [23]とAutoFormer (V1/V2、S3とも呼ばれる) [3, 4]は、検索空間を、それぞれMobileNetV2ブロック [33]またはVision Transformerブロック [10, 27]を繰り返すネットワークに制限しています。生成されるアーキテクチャは、拡張比率、チャネル数、ヘッド数などのハイパーパラメータのみが異なります。しかし、これらの空間で報告されているトップモデルを公平に比較することは現時点では不可能です。なぜなら、それらはより大規模な教師モデルからの知識蒸留によってトレーニングされており、大幅に多くのデータ[19]を使用しているため、報告されているパフォーマンスの向上は検索自体によるものなのか、蒸留プロセスによるものなのかが不明確だからです。実際、蒸留を適用すると、[12]では標準的なEfficientNet-B2 [34]が同じFLOPsとトレーニング予算でより高い精度を達成しています。同様に、同じパラメータ予算でトレーニングした場合、[43]の手動設計されたTransformerは、AutoFormerの最適なTransformer [2, 3]をよりも上回っています。

要するに、主要な改善分野は2つあります。ネットワークの多様性と、公平で再現性のある比較です。これら両方の問題はUniNASによって解決されます。1) UniNASの柔軟性により、真にトポロジーを意識したアーキテクチャ検索が可能になります。アテンションメカニズムは選択された位置に挿入されたり、畳み込みと組み合わされたり、特定ブランチで完全に置き換えられたりすることができ、このような柔軟性は以前の単一操作選択に限定されたフレームワークでは実現できませんでした。2) UniNASは、ResNet [13]、EfficientNet [34]、ViT [10]、CoAtNet [7]（図3参照）などのすべての言及された空間とトポロジーをカバーしているため、ネットワークトポロジーを公平に比較することを可能にし、それらの特性と精度を、相互に、そして新しいアーキテクチャと比較することができます。

これまでの検索空間とは異なり、著者らのUniNASでは、各段階で異なるブロックを使用することが可能です（NAS-Benchフレームワークに対する[28]の批判を参照。この批判は、単純なモデルパラメータ数が最終的なネットワーク精度を推定する上で最高の予測強度を持つという事実から生じており、それによって研究者が新しい興味深いトポロジーを探索することを妨げていました）。

3. アーキテクチャ検索

本セクションでは、UniNAS検索空間内で、与えられた基準に基づいてネットワークを見つけるためのアルゴリズムを提案します。具体的には、段階数、ブロック数、基本チャネル次元などの設計選択肢が既知であり、ParamsおよびFLOPsの境界形式の制約が与えられていると仮定します。その上で、著者らの目標は、上記の制約条件下で特定の目標（最高の精度など）を最大化するネットワークを見つけることです。

a) 検索ステップ：より正式には、任意のUniNASネットワークは一連のグラフによって識別され、各グラフは1つのUniNASブロックに対応し、は総ブロック数です。これにより、著者らはUniNAS検索を、ノードの追加と削除を含むグラフベースのアルゴリズムとして定式化することができます。検索が、1) ネットワークサイズ制約内にあるネットワークのみを効率的に探索し、かつ

1. 実行可能なグラフ（ノード次元と偶奇性に関して）であること、を保証するために、著者らは以下の方法を採用しています。

著者らは、各ノード（ただし）を、訓練可能なパラメータ数（Params）と近似浮動小数点演算回数（FLOPs）に関連付けます。これらの値は、各基本操作ノードの入力テンソル形状の関数として簡単に取得でき（表1参照）、これにより、著者らは与えられたノードを追加/削除した後に、全体のネットワークコストを効率的に計算できます。

著者らは、各基本操作のParams値の計算は非常に直接的であることに注意しています。しかし、FLOPsの推定は容易ではありません。著者らは、各操作のすべての乗算と加算を最終的なFLOPs値に含めることを選択しました。これは、すべての操作にゼロ以外のコストを与え、制御不能な複雑度の発散を防ぐためです。したがって、この値は、PyTorchプロファイラなどの実行時FLOPs推定器が返す値とは異なる可能性があり、さらに、基盤となるハードウェアによっても異なる場合があります。

1. 著者らは、検索空間に対して実行可能なノードの追加および削除操作を定義します。これらの操作は、UniNASブロックが1回の検索ステップ後も実行可能な計算グラフであり続けることを保証するとともに、大規模なUniNAS空間を自由に探索することを可能にします。グラフの実行可能性は表1の入力/出力ノード形状によって決定されることに注意してください。以下のことを確認するだけで十分です。a) RelPosBiasは、入力空間次元が整数平方根を持つ場合にのみ追加する。b) Chunk2、Chunk3は、チャネル次元がそれぞれ2または3で割り切れる場合にのみ追加する。c) ConvRed4は、チャネル次元が4で割り切れる場合にのみ追加する。d) 次元を変更したり、複数の出力を持つノードは、その結合ノードと一緒に追加する。削除する場合、これら2つのノード間のブランチも削除されます。

アルゴリズム1 UniNAS検索ステップ

要件：UniNASネットワーク、すなわち一連のグラフ、可能なノードタイプリスト（表1参照、ノードコストFLOPs、Paramsを含む）、検索境界、、Paramsmax、Params ）、削除確率 peliminate 、最大試行回数。 1: がの間実行

2: ランダムにグラフとノードを選択

3：をサンプリング

4: もしならば

5: {ノードを削除}

6: vとその結合ノード間の最小部分グラフを特定（出力が1つで次元を変更しないノードの場合は空）

7: 潜在的な削除の後、FLOPsとParamsの変化を計算

8: もし変化がと Params に対して妥当ならば

9: を削除

10: 中断

11: end if

12: そうでなければ

13: { の後のノード追加}

14: 潜在的な追加とその結合ノードの後、FLOPsとParamsの変化を計算（次元を変更しない単出力ノードの場合、これは空）

15: もし変化がと Params に対して妥当ならば

17: 中断

18: end if

19: end if

20:

21: end while最後に、著者らは（単一の）検索ステップを構築しました。各ステップで、調整されるUniNASブロックを選択し、ノードを追加するか削除するかを決定します。追加する場合、ランダムに選択されたノードの後にノードが追加されます。ただし、これは上記の1)と2)に基づいて実行可能であることが前提です。追加/削除オプションを決定するパラメータは通常0.5未満に設定されます。これは、著者らがまずノードを追加し、その後削除することを望むためです。なぜなら、特定の種類のノードの場合、それらを削除することは、そのノードとそれに対応するノードの間のブランチ全体を削除することも意味し、これによりネットワークサイズが大幅に削減される可能性があるからです。実験では、著者らはの値を選択しました（図1参照）。この選択により、ランダムウォークはネットワークサイズが無制限に増加したり縮小したりする退化を回避します。より正式な説明はアルゴリズム1を参照してください。

b) トレーニングと評価プロトコル：トレーニング不要NASアルゴリズムが完了すると、最も有望な候補アーキテクチャとして識別されたものは、最終的な（真の）精度を得るためにトレーニングする必要があります。残念ながら、NAS文献では正確なトレーニングスキームが常に不足しており、異なる著者らは、異なるトレーニングデータ、エポック数、トレーニングバッチサイズなどを使用して結果を報告しているため、異なるNAS手法の直接比較は不可能です。UniNAS検索空間において、著者らは最終ネットワークをトレーニングするための詳細なトレーニングプロトコル（表3参照）も提供しており、これにより、異なるアーキテクチャとNAS手法（将来の研究を含む）が公平かつ再現可能な方法で比較できるようになります。

c) UniNASツールキット：著者らは、pipでインストール可能なパッケージ「uninas」を提供しており、研究者が提案されたUniNAS空間を使用するために必要なすべてのコンポーネントに簡単にアクセスできるようにしています。具体的には、任意のUniNASネットワークをPyTorchモデルとして生成するツール、およびカスタムUniNASネットワークを構築するための直感的なインターフェースを提供しています。さらに、複雑なネットワーク構造のために特別に設計された計算グラフのグラフィック可視化モジュールも含まれています。著者らはまた、アルゴリズム1で説明されている検索アルゴリズムの実装も提供しており、これは計算予算の制約を考慮し、UniNAS空間でのランダムウォークまたはPyTorchネットワークから計算可能な任意の目標に対する最適化アルゴリズムをトリガーできる単一の関数呼び出しにカプセル化されています。最後に、著者らは表3で説明されているトレーニングプロトコルも含まれており、分散トレーニングをオプションでサポートすることで、将来のUniNASネットワークの再現性と公平な比較を促進します。

4. 結果

a) UniNASにおけるランダムウォーク：著者らは、著者らの検索ステップアルゴリズム1とパラメータconを使用してランダムウォークを実行しました。

表3：UniNAS評価プロトコル

著者らは、まずImageNet-1kで画像分類をトレーニングし、次に上記のハイパーパラメータを使用してCOCOおよびADE20Kデータセットでファインチューニングすることにより、UniNAS空間における分類、検出、セグメンテーションタスクでのNAS手法を評価しています。バッチサイズの選択は単一のA100 GPUに適合するように行われ、各GPUごとに報告されているため、より多くのGPUを使用する場合は、学習率をそれに合わせて調整する必要があります。

パラメータ量を22-28M、FLOPsを6-20Gに制限し、著者らのアーキテクチャ探索が巨大なUniNAS空間をナビゲートする能力を評価しました。図1では、50万個のサンプリングされたネットワークのParamsとFLOPsを確認でき、著者らの検索が異なるネットワークサイズと構成を容易に横断できること、またTransformerベースと畳み込みベースの非常に異なるネットワークアーキテクチャをカバーしていることを示しています。図4では、UniNASの基本操作のさらなる内訳が提供されており、ネットワークサイズが特定の操作間で非常に可変であることを示しており、著者らの探索が非常に多様な構成を効果的にカバーしていることを示しています。

b) アーキテクチャ検索：著者らのUniNASで最適なアーキテクチャを検索する際、著者らはトレーニング不要NASエージェントVKDNW[40]を使用して、ネットワーク性能をトレーニングせずに評価しました。著者らは次のように定義します。

ここで、は、ランダムな入力バッチで初期化された際の経験的フィッシャー情報行列（FIM）の固有値のk番目の十分位数を表し、FIMスペクトルの表現として機能します。具体的には、著者らは各ブロックに対して式(3)を計算し、これらのすべてのブロックの結果を平均して単一のスカラー値を得て、検索においてこの値を最大化します。著者らがこのトレーニング不要エージェントを選択したのは、それがネットワークスケールに直交しているためです（[40]の図3参照）。著者らの目標は、特定のネットワークスケール予算内で最適なトポロジーを検索することです。

その後、著者らはUniNASで反復検索を実行しました。著者らは初期ネットワークから開始し、アルゴリズム1の1024ステップを実行しました。

表4：UniNAS検索空間内のモデルにおけるImageNet-1kでの分類精度。すべてのモデルは類似した数のパラメータを持ち、表3のトレーニングプロトコルに従って同じ方法でトレーニングされました。トレーニングには8つのA100 GPUで2日かかりました。

その中で上位64のネットワーク（個体群サイズ）のみが保持されました。検索プロセス中、ネットワークサイズは27Mパラメータと20G FLOPsに制限され、図2では4段階を採用し、初期出力サイズは64、各段階でそれぞれ2、3、5、2個のUniNASブロック、隠れ次元はそれぞれ96、192、384、768と、現代のアーキテクチャ3と一致させました。検索は単一のA100 GPUで12時間かかり、最終的に著者らはVKDNWスコアに基づいて最適なネットワークを選択しました。これをUniNAS-Aと表します（図5参照）。

c) 画像分類：まず、著者らはUniNAS-AをUniNAS検索空間内の他のネットワーク、EfficientNet [34]、ResNet [13]、CoAtNet、および相対位置バイアスを持つViT [7]と比較しました。これらのネットワークを公平な設定で比較するために、著者らはネットワークを同じ数の段階とブロックに拡張し、チャネル数を調整することでネットワークサイズも同じに保ちました。各ネットワークはImageNet1k [8]で、表3と同じトレーニングプロトコルを使用してトレーニングされ、トレーニングには8つのA100 GPUで2日かかりました。表4に示すように、UniNAS-Aは標準的な手動設計ネットワークを大幅に上回っています。

d) ダウンストリームタスク

次に、著者らは前述の各ネットワークを2つのダウンストリームタスクでファインチューニングしました。MS-COCO [24]での物体検出とADE20K [50]でのセマンティックセグメンテーションであり、表3と同じ設定を使用しました。4つのA100 GPUで、セグメンテーションタスクのトレーニングには約10時間、検出タスクのトレーニングには21時間4かかりました。ここでも、UniNAS-Aは既存のネットワークを大幅に上回るパフォーマンスを示しました（表5参照）。

e) エージェントのアブレーション

最後に、著者らは異なるエージェントを使用して検索アルゴリズム1を実行し、各エージェントによって見つけられた最適なアーキテクチャを評価することにより、エージェントとしてVKDNW [40]を選択したことのアブレーションを行いました。表6では、UniNAS空間の検索が特定のエージェントの選択に対して基本的に堅牢であることを示していますが、VKDNWは同じ検索予算（12時間）で最適なネットワークアーキテクチャを見つけることができました。

5. 関連研究

NAS検索空間に関する議論はセクションII-Cで述べられているため、ここではNAS検索手法に焦点を当てます。

a) One-shot NAS：これらの手法は、離散アーキテクチャ空間の緩和に基づいており、通常、与えられた検索空間内のすべての可能なノードとエッジを含むスーパーネットを使用します。この手法はDARTS [26]で最初に提案され、スーパーネットはすべての可能な操作で構成され、各操作には重みが割り当てられ、この重みはスーパーネットのトレーニング中に勾配降下によって調整されます。スーパーネットのトレーニングが完了すると、最も重みの高い操作が保持され、最終的なネットワークアーキテクチャが構築されます。Robust-DARTS [47]は、スーパーネットトレーニングにデータ拡張を導入することでテスト時の汎化能力を改善し、SGAS [21]は、各段階で許可される操作を明示的に選択することでスーパーネットトレーニングの安定性を向上させることを目的としています。One-shot NASの主な課題はメモリ消費です。スーパーネットは検索空間全体で可能なすべての操作を含まなければならないため、またランキングの乱れ、つまりスーパーネットで評価されたアーキテクチャの性能が独立したネットワークとしての場合の性能と異なる可能性があることです。

6. 結論

著者らは、統一されたフレームワーク内でネットワークトポロジーを体系的に探索、分析、比較することを目的とした、汎用ニューラルアーキテクチャ探索空間であるUniNASを提案しました。従来の研究と比較して、著者らは計算モジュールをさらに基本操作に分解することで、手動設計されたアーキテクチャとNASによって発見されたアーキテクチャを表現および拡張できると同時に、ネットワーク設計におけるトポロジーの可変性の体系的な研究をサポートします。

著者らは、UniNAS内で直接動作する効率的なアーキテクチャ検索アルゴリズムを提案しました。このアルゴリズムは、FLOPsとパラメータ予算を正確に制御し、多様なアーキテクチャファミリーを探索するためのきめ細かい変更をサポートします。

参考文献

[1]. Universal Neural Architecture Space: Covering ConvNets, Transformers and Everything in Between

NASの新視点：グラフニューラルネットワーク駆動の汎用アーキテクチャ空間、ハイブリッド畳み込みとTransformerで性能向上！

短いURLをシェア