計算機センターの運用の効率化は重要な課題である。計算機センターの利用はますます増加する一方,投入されたジョブの待ち時間が増加するなど利便性の低下などが発生している。さらに、昨今は電力ひっ迫や電力コスト抑制の観点での運用最適化や、他の計算機センターやクラウドとの連携による運用最適化など、システムの最適化のための評価指標が変化し、またシステムの複雑さが増している.こういった運用やシステム自体の変化に対しても、柔軟かつ迅速に対応し、効率的な運用を実現することが求められている。
しかし、現状の計算機センターのシステムの運用は、未だ管理者の知見に頼るものが多く残っている。システムの状況を管理者に知らせるダッシュボードや、システムの運用を変更可能なパラメーターは多数存在する。しかし、ある運用目標に沿った最適なパラメーター設定については、未だ管理者の知見に頼ったものとなっている。そのため、複雑化し変化するシステムの運用は困難を極め、効率的な運用が実現できていない。
一方、昨今のAI技術の進展は様々な領域においてデータを活用した最適化や自動化などを可能としている。計算機センターの運用においても,システムを構成する機器が生成するログや投入されたジョブの情報など、大量かつ様々なデータが生成され続けている。これらのデータを活用して、システムの運用最適化の自動化への期待が高まっている。
本研究グループでは、計算機センターの複雑化かつ変化するシステムにも柔軟かつ迅速に対応し、効率的な運用を実現することを目的として、計算機センターの運用において生成されるデータを活用して問題解決を実現するフレームワークの構築と、それによる問題解決の実証を行う。