重み付けされた

ブログ

ホームページホームページ / ブログ / 重み付けされた

Oct 17, 2023

重み付けされた

Scientific Reports volume 13、記事番号: 14061 (2023) この記事を引用する メトリクスの詳細 今日のデータ駆動型デジタル文化では、本質的に最適化されたソリューションに対する重要な需要があります。

Scientific Reports volume 13、記事番号: 14061 (2023) この記事を引用

メトリクスの詳細

今日のデータ主導のデジタル文化では、生産性の向上を図りながら本質的に運用コストを削減する、最適化されたソリューションに対する重要な需要があります。 膨大な量のデータを処理するために使用できるメモリの量と処理時間には、多くの制限があります。 データセットに冗長で興味のない情報が含まれている場合、これは間違いなくさらに問題になります。 たとえば、多くのデータセットには、主に特定の分類アルゴリズムを欺く非有益な特徴が多数含まれています。 この問題に取り組むために、研究者たちは、生のデータセットを機械学習 (ML) アルゴリズムの前に置く前に、生のデータセットから不要な情報を除去することを目的とした、さまざまな特徴選択 (FS) 技術を開発してきました。 メタヒューリスティック最適化アルゴリズムは、FS のような NP 困難な問題を解決するための確実な選択肢となることがよくあります。 この研究では、メタヒューリスティックの一種であるスパロー検索アルゴリズム (SSA) に基づくラッパー FS 手法を紹介します。 SSA は、迅速な収束と安定性の向上により際立っている群インテリジェンス (SI) 手法です。 SSA には、大部分の SI アルゴリズムと同様に、群の多様性が低いことや、反復の後半での探索能力が弱いことなど、いくつかの欠点があります。 そこで、10 個のカオス マップを使用して、次の 3 つの方法で SSA を改善しようと試みます。(i) 初期の群れの生成。 (ii) SSA 内の 2 つの確率変数の置換。 (iii) 探索範囲を横切るスズメをクランプする。 その結果、SSA のカオス的な形式である CSSA が得られます。 広範な比較により、CSSA は、電気電子学会 (IEEE) 進化計算会議 (CEC) ベンチマーク セットのさまざまな代表的な関数を解く際のスウォームの多様性と収束速度の点で優れていることが示されています。 さらに、カリフォルニア大学アーバイン校 (UCI) データ リポジトリからの 18 の学際的なマルチスケール ML データセットと 3 つの高次元マイクロアレイ データセットに対する CSSA の実験分析により、CSSA が 12 の最先端のアルゴリズムよりも優れていることが実証されました。 FS 規律に基づいた分類タスクで。 最後に、Wilcoxon の符号付き順位検定、Friedman の順位検定、および Nemenyi の検定に基づく 5% 有意水準の統計的事後分析により、全体的な適合度、分類精度、選択された特徴サイズ、計算時間、収束トレースの観点から CSSA の有意性が確認されます。 、安定性。

21世紀はデータの時代となり、生活のあらゆる場面でデータの分析や活用が行われており、それらのデータは高次元の性質を持つものが多くなっています1,2,3,4,5。 ただし、このデータにはかなりの数の冗長で無関係な特性が含まれることは避けられず、従来の機械学習 (ML) アルゴリズムで処理される場合、計算オーバーヘッドとオーバーフィッティングのリスクが増加します 6、7、8。 その結果、データをより有効に活用するには、価値のない特徴を処理するための特徴選択 (FS) などの効率的な手順を開発する必要があります9、10、11。 ラッパー、フィルター、および組み込み FS 技術は、機能サブセットの評価に基づいてそれらを区別するために一般的に使用されます12。 ラッパーベースのアプローチは、より高い分類精度を得るために事前定義された ML アルゴリズムに依存しますが、ML アルゴリズムを何度も実行する必要があるため、計算コストが非常に高くなります13。 逆に、フィルターベースのアプローチでは、特徴サブセットを評価する際に ML アルゴリズムを使用しないため、計算コストは​​削減されますが、分類精度が低下する可能性があります 14。 組み込み技術はモデル学習に FS を組み込んでおり、計算量を軽減しながらアルゴリズム モデルの影響を考慮します。 ただし、これらの方法は一般化能力が低く、計算が非常に複雑です15。

特徴サブセットの数はデータの次元によって幾何学的に変化するため、特に高次元データを扱う場合、従来の方法を使用して適切な結果を生み出すことは困難です。 次元の呪いによって引き起こされる高い計算コストを削減するために、その堅牢性と調整可能性により、ラッパー群インテリジェンス (SI) アルゴリズムに基づいて新しい特徴サブセット選択アプローチを開発できます 16、17、18。 SI アルゴリズムには、柔軟性、自己組織化、回復力という 3 つの重要な特性があります。 これらのアルゴリズムは、採餌、捕食防止、移動など、自然界の集団行動からインスピレーションを得ていることがよくあります19。 典型的な SI アルゴリズムは、アリコロニー最適化 (ACO)20、粒子群最適化 (PSO)21、ハイイロオオカミ最適化 (GWO)22、人工ミツバチコロニー (ABC)23、クジラ最適化アルゴリズム (WOA)24、バッタ最適化アルゴリズム (GOA) です。 25、ハリスホークス最適化 (HHO)26、鳥群アルゴリズム (BSA)27。 他の最適化アルゴリズムには、bat アルゴリズム (BA)28、原子探索最適化 (ASO)29、ヘンリーガス溶解度最適化 (HGSO)30 などがあります。 一般に、メタヒューリスティックアルゴリズムは FS 問題を効果的に処理し、より高い分類精度を達成しながら計算の複雑さを軽減することができるため、SI アプローチは一貫して FS 問題に適用されてきました 31,32,33,34。 例えば、Hussain et al.35 は、HHO の探査と活用能力のバランスをとるために、サインコサイン アルゴリズム (SCA) を HHO に統合し、いくつかの数値最適化および FS 問題に関する実験結果により、提案されたアルゴリズムの競争上の利点が明らかになりました。他の SI アルゴリズム。 Neggaz ら 36 は、FS 問題の解決に HGSO を初めて適用しました。 さまざまな特徴サイズ (13 から 15009) のデータセットに関する実験結果は、HGSO が最大の分類精度を維持しながら、特に高次元データにおいて特徴サイズを最小化するのに効果的であることを示しました。

N/2\) indicates that scroungers need to fly elsewhere to get food; otherwise, scroungers get food form around producers./p>f({\mathbf{g}}_{best}^{t})\) indicates that the sparrow is at risk of predation and needs to change its location according to the current best individual, whereas when \(f({\textbf{x}}_i^{t})=f({\mathbf{g}}_{best}^{t})\), a sparrow needs to strategically move closer to other safe individuals to improve its safety index./p>