2022/9/11
世界中のさまざまな場所で、自動車メーカーやTier 1サプライヤー、自動車関連の新興企業が、待望の完全自動運転機能であるレベル5の実現を目指して、文字どおり何千日もの間、自動運転車両のテストを続けています。
2010年以降、自動運転レベル2+ (L2+) の実現を目指して、自動運転車両技術やスマートモビリティへの投資総額は世界で約2,060億ドルに上っています。レベル2以降のレベル (L3からL5) を実現するには、その投資額が2倍になるとも予想されています。これはまさに、真剣勝負のビジネスです。しかし、DXCを含め、市場のすべてのプレーヤーが直面する手に負えない課題が1つあります。それは、テスト中に生成される膨大な量のデータをどうやって管理するかということです。この難題を克服した企業は、レベル5実現に向けたレースをリードすることができるでしょう。
データは取った。さて、どうする?
テスト車両では、8時間のテスト時間中に200TBを超える未加工データが生成されることがあります。したがって、車両10台でのデータ収集で、1日に約2PBのデータが生成される可能性があります (1台につき1日8時間のテストを想定)。さて、さまざまな有益なデータが大量に収集されましたが、ガレージに戻ったテスト車両からデータセンターにデータをオフロードするにはどうすればよいでしょうか?
たとえば、都市部のテストセンターでは、ネットワーク帯域幅を手軽にスケーリングして、北アメリカ、ヨーロッパ、アジアにある (下の地図参照) DXCのデータセンターに確実にデータを届けることができます。特にこれらのデータセンターに物理的に近い場所でデータが収集される場合や、DXCのロジスティクスサービスが利用されている場合は、より確実です。しかし、データ収集はデータセンターから遠く離れた場所で行われることも多く、結果として国境を越えるロジスティクスサービスに費用がかかることになり、クラウドでのデータ保存を選択するお客様もいます。
現在、DXCでは主に2とおりの方法でデータをデータセンターやクラウドに転送しており、どちらの方法にもそれぞれ長所と短所があります。テクノロジーの進歩によりこれらの課題へ対処しやすくなるまで、次のような方法で行います。
方法1
車両をデータセンターに接続する。テスト車両では、1時間に約28TBのデータが生成されます。生成されたデータを光ファイバー接続でデータセンターかローカルバッファーに送信してオフロードするには、30~60分かかります。これは時間がかかりますが、データが比較的小さな単位で処理される場合には有用な方法です。
方法2
多くの場合、データ負荷が大きく、光ファイバー接続も利用できないため、テスト車両からデータセンターにデータを直接アップロードできません (たとえば、砂漠や凍結した湖、農村地帯などの地理的に離れた試走エリア)。このような場合は、別の2とおりの手法がとられます。
a) 記録媒体を専用ステーションに持ち込む/発送する。この方法では、車両から取り外したプラグインディスクをまず取り込みステーションに持ち込むか発送し、取り込みステーションからデータを中央データレイクにアップロードします。ディスク交換にはわずか数分しかかからないため、車両はそのまますぐに次のテストに利用できます。この方法の短所は、複数セットのディスクを用意する必要があることです。そのため、方法1と比較すると、時間をお金で買っていると言えます。
b) 中央データレイクをクラウドに置く。a) の方法の別バージョンです。データは取り込みステーションからクラウド内の中央データレイクにアップロードされます。この方法の最大の課題は、クラウド接続の帯域幅です。現在標準的なクラウドサービスでは、1接続の最大帯域幅は100Gbpsです。理論上単純計算では、24時間で1PBをクラウドに転送できることになります (実際に転送できるのは、その半分のデータ量です)。このためクラウドへ多数の並列接続を確立する必要があります。さらに、研究開発用の車両センサーの解像度が高くなっている (4K) ことで生成されるデータ量も増えており、スループットの増大に伴ってネットワークコストが大幅に増加するとなると、これは大きな課題になります。
データ取り込みの今後のロードマップ
現在行われている研究と技術の進歩を考えると、車載コンピューター自身が分析を実行して必要なデータを選択できるようになるにつれて、これらのデータ取り込み方法はどちらもあっという間に時代遅れになるかもしれません。たとえばテスト車両が、「赤信号での右折」といった特定のシーンのビデオを判別できれば、数テラバイトのデータをメインデータセンターに送信する必要性が軽減され、試験者はインターネット経由 (5Gモバイルデータ通信を含む) で選別済みのデータセットを送信するだけで済むようになるでしょう。
考えられるもう1つのイノベーションは、重大なことが発生していなければ、1秒あたりのフレーム数を減らしたり、解像度を下げたりして記録することでスマートにデータを削減する方法です。この場合、重大と見なされるシーンを事前に定義しておく必要があります。それはつまり、データ転送とデータ収集プログラムは、ユースケースと強く結びついている必要があるということです。したがって、1度収集したデータをさまざまなユースケースに何度も再利用することはできません (トレーニングとテストは、アルゴリズムとモデルによって異なるということです)。そうしたスマートなデータ削減は、テスト車両内で行われるか、またはスマート取り込みステーション内でデータアップロードの一部として行われることになります。
長期的には、技術的な進歩としてセンサーの削減、またはセンサーレベルでのロスレスデータ圧縮があるかもしれません。現在のセンサーは、「解像度が高いほど良い」という考えに従っています(また、「センサーの数と種類が多いほど良い」という考えもあります)。この考え方は、たとえ少数の研究開発車では受け入れられたとしても、何百万台もの消費者向け車両に実装するには無理があります。
こうして、コストとデータ量を削減するために、センサーの最適化という課題にたどり着きます。こうした課題では、間違いなく、機械学習アルゴリズムが役立ちます。特に、ニューラルネットワークアルゴリズムを量子コンピューティングと組み合わせて、各種センサーの最適な位置と方向を見つけ出すという課題を解決する場合はなおさらです。
ここで取り上げたデータ取り込みの課題は、AD/ADAS (自動運転/先進運転支援システム) のデータ処理の始まりの部分にすぎません。データ品質を制御したり、メタデータを抽出したりするための最初のステップは、多くの場合、取り込みプロセスに組み込まれています。ただし、大規模でのデータ品質やデータカタログ、データ変換といった後続の処理ステップは、通常データレイクで行われます。この点については、さらに詳しく検証していくことが必要です。