
Ray-Ban Metaの舞台裏:Metaスマートグラス製品責任者、Kenan Jia氏への独占インタビュー
ケナンJia | Meta AI/ARグラスチームの製品組み立て責任者 Luo Yihang | SCilier &GenAIの創設者兼CEO 組み立てビット
11月26日、シリコンバレーのメンロパークでGenAI Assemblingが主催したオフラインイベント「AIロボティクスとウェアラブルの未来」で、Silosの創設者兼CEOであるLuo YihangがMetaのAI/ARアイウェアチームの製品責任者であるKenanと対談しました。ジア。
Kenan 氏は、人気の Ray-Ban Meta スマート グラスの製品リーダーであり、Meta の次世代スマート グラスの開発をリードしています。「新しい AI ハードウェアの作成: トレードオフの芸術」と題されたこの対談では、Ray-Ban Meta 誕生の舞台裏、AI ハードウェアのトレードオフ、そして将来についての考えについて語ります。
以下は会話の記録です。
Ray-Ban Meta: スマートグラスから毎日の相棒へ
ユーザーの視点から質問したいのですが、Ray-Ban Meta スマート グラスをどのくらいの時間着用しますか? 最も一般的な使用例は何ですか?
ケナン:こんにちは、私はMeta のスマート グラス チームのプロダクト マネージャーである Kenan は、現在、次世代のスマート グラスの開発を担当しています。今日は、Ray-Ban Meta に関する情報をお伝えできることを大変嬉しく思います。
私にとって最も重要な使用シナリオは、第一の視点から写真やビデオを撮影することです。特に旅行やアクティビティでは、携帯電話を取り出さずに両手を自由にしていつでも美しい瞬間を記録できるため、旅行には欠かせません。たとえば、ロサンゼルスのディズニーランドに行くと、ジェットコースターに携帯電話を持っていくことはできません。危険なためです。しかし、Ray-Ban Metaサングラスがあれば、すべてを記録することができ、とても良かったです。また、今年は2つのコンサートにも行きましたが、小さな画面のビデオを見るために携帯電話を持ち上げなくてもよくなり、素晴らしい瞬間を記録しながらパフォーマンスを楽しむことができます。同様に、ハワイでマウンテンバイクに乗るなど、友人と旅行するときは、音楽やビデオを聞くために使用し、その場所に没頭したまま美しい瞬間を記録します。これが、Ray-Ban Meta製品の主な目標の1つです。
さらに、AI 機能もどんどん活用しています。たとえば旅行中、博物館で長い説明を読む必要はなく、Meta AI に興味のある具体的な質問をすればいいのです。このメガネはリアルタイムで翻訳もできます。ヨーロッパに出張していたとき、このメガネのおかげでメニューや道路標識をすぐに翻訳することができて、とても便利でした。その結果、AI 機能への依存も高まっています。
Ray-Ban Meta AI 機能を使用した私の例を挙げてみましょう。先月中旬、シアトルの航空博物館で MiG-3 の前に立っていたとき、「おい、Meta、写真を撮って」と言いました。すると彼は「この飛行機の背景を教えて」と尋ねました。数秒後、メガネのフレームから聞こえてきた声が、それが 1940 年に製造され、ソ連とドイツとの戦争で使用された MiG-3 であることを教えてくれ、その開発の歴史も教えてくれました。これは、マルチモーダル Llama モデルの応用を示す良い例だと思います。
AI とウェアラブルの統合に非常に興味があります。この技術がメガネ上でどのように機能するかを詳しく説明していただけますか? 一部の AI 機能はクラウドで実行され、その他の機能はエッジ AI を使用していることはわかっています。その仕組みをもう少し詳しく教えていただけますか?
Jakhonan: 確かに、システムのアーキテクチャは多くの人が考えるよりも興味深いものです。たとえば、トーマスが「Hey Meta」と言って飛行機について知りたいと思ったとき、プロセスは 3 つの部分に分かれています。
メガネ自体
携帯電話用Meta Viewコンパニオンアプリ
クラウドサーバー
「Hey Meta」と言うと、ウェイクワード モデルがデバイス上でローカルに実行され、AI 機能が起動し、音声認識によってクエリを理解します。「写真を撮る」などの単純なコマンドであれば、処理はメガネ上で直接行うことができます。
より複雑なマルチモーダルタスクの場合、これはクラウドで実行されます。このとき、メガネは Bluetooth を介して携帯電話のサポート アプリケーションに接続し、携帯電話は WiFi またはセルラー ネットワークを介してクラウド サーバーにクエリを送信して処理します。
Llama 70B モデルは、知識ベースの検索、回答の生成、プライバシーとセキュリティのフィルタリングなどのタスクを実行するために呼び出されます。処理が完了すると、応答は電話経由でメガネに返され、オーディオとして再生されます。
処理がデバイス上で行われるか、クラウド上で行われるかについては、現場で多くの議論があります。メガネ型のデバイスの場合、多くのトレードオフがあります。デバイスは小型で軽量ですが、電力と熱によって制限されるため、複雑なタスクをサーバー側に配置するのが最善の解決策です。このアーキテクチャの利点は、タスクがBluetooth経由で電話に渡され、その後クラウドが主要な計算と応答を完了するため、デバイスの電力消費を大幅に削減しながら、高品質の回答出力を確保できることです。
待ち時間を最適化することが課題です。誰も長く待ちたくないからです。サーバー側で処理することで、ユーザーは大規模なモデルから最高品質の回答を得ることができます。デバイスとサーバーのハイブリッド アーキテクチャにより、単純な指示が迅速かつ確実に完了します。
たとえば、リアルタイムの音声翻訳機能はデバイス上でローカルに実行されます。フランス語やスペイン語で話しかけると、翻訳者がメガネ上で直接リアルタイムの音声翻訳を行います。より複雑なマルチモーダルクエリの場合、クラウド処理によって最高のパフォーマンスが実現されます。このアーキテクチャでは、ユーザーが簡単な質問をしたときに高品質で低遅延、信頼性の高い応答エクスペリエンスを確保するために、チームはハードウェア設計、システム最適化、電力と熱の管理、AI 機能の開発に多大な労力を費やす必要があります。
羅一航:では、AIとウェアラブルデバイスの組み合わせについてさらに詳しくお聞きしましょう。おっしゃったユースケースは、旅行の写真とコンサートのビデオです。これらのシナリオと翻訳機能は、特定のAI機能を必要としますが、大規模な言語モデルの推論力に依存しない、それほど複雑なAIサポートを必要としないと思います。Ray-Ban Metaは昨年10月にリリースされたと思いますよね?
キーナン:はい、第2世代のレイバン メタは昨年10月に発売されました。第1世代のレイバン ストーリーズは2021年に発売されました。
AI 機能は今年 4 月に追加されたばかりですが、個人的な経験やユーザー調査から、この 1 年ほどで使用シナリオやアプリケーションはどのように変化しましたか?
Kenan: いい質問ですね。AI機能の導入後、ユーザーからの高い支持と大幅な成長が見られました。Ray-Ban Metaに関して言えば、2021年に第1世代のStoriesがリリースされたとき、私たちのポジショニングは主にカメラ+オーディオグラスであり、ファーストビュー撮影、音楽鑑賞、通話の発着信に重点を置いた機能でした。これらの機能は非常に人気があります。Ray-Ban Meta製品は、大規模な言語モデルとAI機能を備えたスマートグラスであるだけでなく、デザインも非常にスタイリッシュで、多くのユーザーにその外観が好まれ、非常に実用的な撮影機能と音楽再生機能を備えているという点でユニークです。
オーディオ機能は、当社で最も使用され、保持されている機能の 1 つです。このメガネを着用すると、AirPods を頻繁に着脱する必要がなくなり、Bluetooth ヘッドフォンの使用を置き換えることができるため、利便性が大幅に向上すると多くの人が感じています。
今年 4 月に AI 機能が導入されて以来、これらの機能は新しいモデルが最適化されるにつれて改善され続けています。Ray-Ban Meta は完全なスタンドアロン ハードウェア製品として、市場の他の AI ソフトウェア製品とは異なります。携帯電話や鍵に加えて毎日持ち歩く必要がある場合、心理的な負担が増加します。そのため、ユーザーはこのデバイスを本当に気に入っているか、大きな価値をもたらすかのどちらかです。
AI 機能は大きな価値を示しています。天気予報の確認、タイマーの設定、ハンズフリーの写真撮影や録画など、一部の機能はより伝統的なものです。その他の機能は、リアルタイム翻訳や、植物の識別や情報の迅速なクエリなどのマルチモーダル機能など、より興味深い新しいトレンドを示しています。これらは、初期に出現したアプリケーション シナリオの一部です。
モデルの継続的な改善とメガネへの最適化により、Ray-Ban Metaは大きな可能性を示しています。常に顔に装着されているため、ユーザーが見ているものを見ることができ、ユーザーが聞いているものを聞き、音声を直接耳に届けることができ、ユーザーは操作するために携帯電話を取り出す必要はありません。たとえば、博物館や観光地にいるとき、AIに直接質問するだけですぐに答えが得られ、非常に実用的です。
9月のMeta Connectカンファレンスでは、今後Llamaモデルをベースにしたリアルタイムの質問応答AI機能をリリースすると発表しましたが、これが最も有望なカテゴリーの1つになると考えています。
さらに、これらの AI 機能は、ユーザーがすでに楽しんでいる他の撮影機能やオーディオ機能と組み合わせることができます。一部の純粋な AI デバイスと比較すると、Ray-Ban Meta は多機能統合製品として成功しています。特定の AI 機能だけに焦点を当てたデバイスは、試してみると新鮮に感じるかもしれませんが、すぐに忘れられてしまい、引き出しのアイテムになります。Ray-Ban Meta が成功した理由は、スタイリッシュなデザインと汎用性を兼ね備え、ユーザーが本当に頻繁に使いたくなるようにしたことです。
スマートグラスの背後にある技術的なトレードオフ
開発中に、Llama モデルをスマート グラスに統合するのが困難だったと聞き、興味を持ちました。チームが直面した具体的な困難について教えてください。特に、大規模な言語モデルをデバイスに導入し、マルチモーダル機能を実装する場合、これは非常に複雑なプロセスです。これらの課題を克服するために、研究開発チームとどのように連携していますか?
Kenan: 弊社には、モデル研究とスマートグラスの統合の両方の面で非常に強力な AI チームがあります。グラス、モバイル、サーバー側、音声応答を直接行う方法など、アーキテクチャをもう一度見てみると、グラスやオーディオ フィードバックに対して応答が最適化されていることを確認する方法など、いくつかの課題があります。ChatGPT に質問を入力すると、通常は長い応答が返されます。ただし、LLM の長い応答内容はグラスの形状に適合せず、音声合成 (Tomson S) の応答は非常に長く、2、3 分聞く必要があり、ユーザーにとって理想的ではありません。そのため、要約応答を最適化し、最も関連性の高い即時応答を確実に提供するために、多大な労力を費やしました。
もう 1 つの重要な課題は遅延です。システムの動作には、メガネの処理、データ転送、クラウド サーバーの計算など、多くのリンクが関係します。当社のチームは各ステップを段階的に分解し、全体的な遅延と信頼性を向上させています。Bluetooth 接続が突然切断された場合、ユーザーは何が起こったのかわからず、Meta AI が機能していないと想定してしまう可能性があるためです。
ローンチ後も、私たちは AI エクスペリエンスを「良い」から「素晴らしい」にするにはどうしたらよいか考えていました。たとえば、今は「ねえメタ、この植物を見て、もっと教えてください」と言わなければならないとおっしゃっていましたが、それでは自然さが足りません。「ねえメタ、この植物は何ですか?」と言えばいいかもしれません。そこで私たちは自然なインタラクションに力を入れ、人々が AI と直接話せるようにしています。今では「見て」と言う必要はなく、質問を直接すれば、システムが写真を撮りたいかどうか、または直接撮っても十分鮮明かどうかを尋ねます。
さらに、私たちは複数回の継続的な会話を開発しました。博物館では、ユーザーは質問をするたびに「Hey Meta」と繰り返すことを望まないかもしれません。メガネをかけているとき、LED インジケーターがシステムが数秒間聞いていることを示し、フォローアップの質問をすることができます。
全体として、私たちの焦点は、AI がメガネ上で確実に、高速に、優れた品質で実行されるようにすることです。私たちは、ユースケースの価値を高め、インタラクションをより自然にし、より多くの言語をサポートすることに投資してきましたが、国際化は困難です。
優先順位、レイテンシ、信頼性、応答品質についてお話しいただいたので、これらのトレードオフとバランスの重要性をさらに探ってみましょう。これらは AI デバイス、特に次世代の AI グラスの将来にとって非常に重要だと思います。
私の見解では、メガネは将来最も有望な AI デバイスの 1 つになる可能性があります。その理由は、人間の頭には最も重要な感覚器官である目、耳、口が含まれているからです。本質的に、頭自体は炭素ベースのマルチモーダル システムのようなもので、メガネはシリコンベースのマルチモーダル AI との自然な相互作用の架け橋となることができます。メガネには 700 年以上の歴史があり、ユーザーはメガネをかけることに対して高い受容性を持っており、不快感を感じることはありません。さらに、人間の知覚と AI の知性をうまく統合して、共同作業を実現できます。
その結果、こうしたトレードオフとバランスが特に重要になります。なぜなら、人間が見たり、聞いたり、表現したりすると、場面が複雑になることがあるからです。では、AI グラスのような製品を開発する際に、こうした機能はどのように優先順位が付けられるのでしょうか。最も重要なのはどれでしょうか。次は何でしょうか。3 番目は何でしょうか。基準を設定するとしたら、それは何でしょうか。
Kenan: こうしたトレードオフを説明する簡単な答えがあればいいのですが、現実は非常に複雑です。ユーザーに Ray-Ban Meta や AR グラスに何を求めるか尋ねると、たいていはより軽量で小型のデバイスが欲しいが、同時にパフォーマンスが向上し、バッテリー寿命が長くなり、画質も向上すると答えます。しかし、こうした要件は矛盾することが多く、すべてのニーズを同時に満たすことはできません。
消費者向け電子機器、特に顔に装着する電子機器を開発する際には、どこで線引きするかについて非常に慎重にならなければなりません。たとえば、このトレードオフは第 2 世代 Ray-Ban Meta のカメラ設計に顕著に表れています。
第 2 世代の画質と視野角は、第 1 世代と比較して 500 万画素から 1200 万画素に大幅に向上し、多くの後処理機能と画像最適化機能が追加されました。ただし、第 1 世代のデュアル カメラ設計とは異なり、第 2 世代には左側に 1200 万画素のカメラのみが搭載されています。
当初は詳細な情報を取得したり、クリエイティブな写真を撮ったりするために 2 つのカメラを搭載していましたが、実際の使用頻度は高くないかもしれません。対照的に、ユーザーは写真の品質と FOV をより重視しています。そのため、シングル カメラの設計に重点を置くことにしました。デュアル カメラは確かに異なるレンズ、ズーム、広い視野を持つことができますが、このような小さなデバイスではバッテリーが右側にあり、ここに別のカメラを追加すると、機械的なスペースを占有し、バッテリー容量を圧迫し、電力消費にも影響します。
このような小型デバイスでは、消費電力とメモリも重要な問題です。右側のカメラの 1 つを削除し、カメラのピクセルと FOV を増やすことで、機械スペースを約 10% 解放しました。これは、バッテリー寿命の向上、消費電力の削減、放熱の最適化に不可欠です。同時に、このデザインは、特にカジュアルなシーンを撮影する場合に、Instagram や Facebook Stories などのソーシャル プラットフォームで共有するというユーザーのニーズを満たすことができます。
この事例は、最高のユーザー エクスペリエンスを実現するために、パフォーマンス、サイズ、重量、人間工学、消費電力、放熱の間で総合的なトレードオフを行う必要があることを示しています。これらの要素は、当社の設計において最も重要な考慮事項です。
羅易航:AIが最も重要ではないでしょうか?
Kenan: AI はもちろん非常に重要ですが、私たちはカメラのハードウェア設計の決定について主に話していました。デバイス側とサーバー側の例に戻ると、AI の場合、レイテンシー、応答速度、電力消費のバランスも見つける必要があります。ユースケースが異なれば優先順位も異なり、具体的なトレードオフも変わります。
Luo Yihang: では、具体的な事例やストーリーをいくつか教えていただけますか?
Kenan: カメラ アーキテクチャの例を使って、チームがこうした複雑なトレードオフにどのように対処するかを説明します。製品チームとしての私たちの役割は、直接的な決定を下すことではなく、問題を明確に定義することです。たとえば、カメラと画像の品質を改善したいのですが、機械構造、バッテリー スペース、消費電力、遅延、放熱、コストの面で制限があります。私たちの仕事は、考えられるすべてのソリューションをリストアップし、さまざまな側面からパフォーマンスを分析し、チームと協力して評価することです。
最終的には、各オプションの長所と短所を示すヒートマップのような表が作成されます。通常、すべての面で最適なソリューションはありません。たとえば、シングルカメラ設計は、画質の向上という点では最先端ではありませんが、電力消費やバッテリースペースの利用など、他の重要な面ではパフォーマンスが優れています。
この場合、優先順位をチームで一緒に決める必要があります。この特定のケースでは、画質の向上は重要だと考えていますが、消費電力とバッテリー寿命は厳密に制御する必要があります。チームによっては他のオプションを好む場合もありますが、ロジックを理解して最終決定を受け入れる必要があります。通常は多くの議論がありますが、最終的には「同意しないが従う」という原則を採用します。スケジュールと製造スケジュールにより、決定を無期限に延期することはできないためです。アーキテクチャが決まったら、ソフトウェア チームはこのハードウェアに基づいてさらに最適化を行う必要があります。その結果、プロセスは高度に協力的になり、多くの議論とトレードオフが必要になります。
ロック氏: サプライチェーンやメーカーと連携する際に、どのような課題に直面しましたか?
ケナン:この新しいデバイスは、ユースケースや仕様を定義するだけで生産できるものではありません。製造における課題には、実際の生産で信頼性と品質を確保する方法や、目標歩留まりでパフォーマンス要件を達成する方法などがあります。世界中の契約メーカーと緊密に連携して、製造プロセスを深く理解し、改善の余地を見つける必要があります。
AIグラスからARグラスまで、まったく新しいモジュールを開発し、大規模生産を実現しなければならないことがよくあります。これは非常にエキサイティングな段階ですが、課題も満載です。特にスマートグラスの場合、製造とバックエンドのオペレーションが複雑であるだけでなく、マーケティングも大きな問題です。
従来のメガネは通常、検眼士や眼鏡店で販売されていますが、消費者向け電子機器はベストバイ、アマゾンなどの販売チャネルに依存しています。眼鏡店でのプロセスについてユーザーを教育するにはどうすればよいでしょうか。小売店で製品をどのように展示すればよいでしょうか。これには、チャネル パートナーとの緊密な連携が必要です。当社は、レイバン ブランドを所有するエシロール ルックスオティカと提携しており、同社は眼鏡業界での豊富な経験と大規模な販売チャネルを持っています。これは、従来のメガネに AI とスマート機能を加えた、ファッションとテクノロジーの融合であったため、当社にとって大きな学習プロセスでした。この連携を通じて、消費者にこの新しい形式のデバイスを理解して受け入れてもらう方法を学ぶだけでなく、このようなテクノロジーとファッション製品の融合を市場でより効果的に促進する方法も模索しています。
AIハードウェアの画期的な考え方:参考、競争、将来のシナリオ
これまでの経験についてお話ししましょう。レイバン メタの第一世代以前、メタは VR ヘッドセットなどの VR デバイスに多額の投資を行っていました。VR デバイスの開発から得たどのような教訓を、AR グラスや AI グラスの開発に応用できますか?
ケナン:共通する体験もあると思いますが、デバイスの制約が大きく異なるため、決定も異なります。共通しているのは、ディスプレイ、オーディオ、機械構造など、さまざまなモジュールを備えた複雑な統合システムであることです。ただし、VR は通常、自宅で使用する大型のヘッドセットですが、メガネは軽量で屋外でも着用できます。
小型化という目標は私たちも同じです。Quest では、より小型化を目指しました。AI グラスや将来の AR グラスも同様で、より小型で、より安価で、より優れたものにしたいと考えています。ただし、サイズ、放熱、消費電力に関する許容範囲などのさまざまな制約があるため、決定は大きく異なります。
さらに、ARグラスとVRヘッドセットのディスプレイモジュールも異なります。共通点もありますが、マウスやタッチスクリーンではなく、ジェスチャートラッキング、アイトラッキング、または今年リリースしたEMG(筋電図)技術を使用しているため、2D / 3Dコンテンツとシステムの相互作用を考慮する必要がありますが、ユーザーエクスペリエンスが異なるため、ディスプレイモジュールの要件とハードウェアとソフトウェアの最適化の方向性も異なります。
もちろん、AR や VR プロジェクトで互いに経験を共有するディスプレイ チームや光学チームなど、社内には多くの共有チームがあり、システム設計、インタラクション モデリングと製造、マーケティングには大きな相乗効果があります。しかし、製品、ユース ケース、トレードオフに関しては、違いが非常に大きいです。当面の間、これらの分野で製品の方向性が完全に収束するとは思えません。つまり、お互いから学ぶことはできますが、実際の開発上の考慮事項は非常に異なります。
羅氏:スマートフォンメーカーから学べる経験はありますか?それとも、その経験は参考にする価値がないのでしょうか?
Kenan: 携帯電話やその他の従来の消費者向け電子機器から学ぶべき非常に興味深い教訓があります。私は以前、Meta の Portal スマート スクリーンなど、従来のスマート スピーカー/スマート スクリーンの製品開発に携わっていました。スマートウォッチや音声アシスタント、スマート スクリーンなど、他の形式の製品から学んだことは、人々が追加のスタンドアロン デバイスを持ち歩きたいと思うためには、十分な価値を提供しなければならないということです。今では、AI 機能やカメラなどにより、携帯電話で非常に多くのことができるため、本当に差別化する必要があります。クリエイター向けの専用カメラなどのニッチ市場をターゲットにするか、一般市場向けに AI とその他のユース ケースの組み合わせを考える必要があります。そうしないと、人々はそれを再び使用することを覚えていなくなってしまいます。
単機能のAIデバイスは、ユーザーが使い続けるのが難しいことが多いとおっしゃっていましたが、他のAIウェアラブルやポータブルデバイスについてもお話しいただけますか? 例えば、動画や会議の音声を記録できるAIバッジのようなデバイスや、Rabbit R1のようなAIハードウェアが一時期注目を集めていました。最近では、携帯電話と連動して会議や議論の内容をユーザーに代わって要約してくれる会議録音デバイスもあります。これらのデバイスは、単一の問題を解決することに重点を置いていますが、どのように見ていますか? 特に比較すると、Ray-Ban Metaは単機能デバイスでも、単なるAIデバイスでもありません。
Kenan: 問題は 1 つの機能だけではないと思います。多くの AI デバイスにとっての課題は、ユーザーがデバイスの使用を思い出すほど価値のあるコア ユース ケースを見つけることです。現在、マーケティング上の主張が強いコンセプト重視のデバイスが数多く登場していますが、重要な疑問は、ユーザーがスマートフォンを使い続ける代わりにこのデバイスを選択する理由です。
この携帯電話は、必要な AI モデルのほとんどをすでに実行でき、マルチモーダルで、それらの機能に多くの最適化が施されています。Ray-Ban Meta の場合、私たちの位置付けは AI デバイスに限定されるのではなく、撮影、オーディオ、AI 機能を備えた統合されたエクスペリエンスを提供する多機能デバイスです。
Rabbit R1 やそれに似た製品について触れましたが、たとえ 1 つのことをうまくやったとしても、現在の課題は、単なる機能に終わらないようにするにはどうすればよいかということです。Apple や他の携帯電話メーカーが後でこの機能を統合した場合、ユーザーがこれらのデバイスを選択する理由はまだあるでしょうか。
私は最近、AI 非搭載の民生用電子機器をいくつか購入しましたが、単一目的であるにもかかわらず、感銘を受け、定期的に使用しています。2 つの例を挙げると、
reMarkable: ノルウェーの電子インク メモ帳。高価ですが、100 万台以上売れています。iPad でメモを取るのが嫌いな人のニーズを満たす、ミニマリストなデジタル メモ作成エクスペリエンスをユーザーに提供することに重点を置いています。デジタル ミニマリズムの好例であり、極限まで「シンプルさ」を追求した製品として人々に愛されています。
• Freewrite: 電子インクタイプライター。集中力を必要とする私にとって、気を散らすものから離れてその瞬間に集中して書くことができるようになります。
これらのデバイスの成功は、ターゲット市場を特定し、特定のユーザーの特定のニーズに合わせて深く最適化されている点にあります。これらは単なる AI のコンセプトやアイデアではなく、特定のシナリオやユーザー向けに真にカスタマイズされた製品です。機能が単一であっても、それが極端であれば、人々は喜んでお金を払ってくれるでしょう。
これは、多くの AI 搭載デバイスが直面しているジレンマでもあります。単一の機能で最善を尽くすわけでもなく、魅力的な多機能バリュー パッケージも提供していません。そのため、ユーザーは「なぜ追加のデバイスを持参する必要があるのか」と疑問に思う、厄介な中間地点に立たされています。
しかし、これは非常に興味深い段階であり、人々はさまざまな形で実験し、さまざまな使用例を改善するでしょう。どれが成功するかはこれからわかるでしょう。メガネは最も興味深い形の 1 つだと思いますが、人々は実験を続け、何が機能し、何が機能しないかがわかるでしょう。
AI や AR グラスの将来についてお話ししましょう。現在、中国でこれらのグラスを製造しているブランドがいくつあるかご存じでしょうか。その数を推測できますか?
ジェイコブス氏:数は知りませんが、たくさんのブランドを見てきました。
羅易航:5、10、それとも20?どれが近いですか?
キーナン:20以上でしょうね。
羅一航:この盛り上がっている AI/AR グラス市場についてどう思いますか?このような製品を作る企業の中核的な競争力は何でしょうか?テスラが自動運転や電気自動車で市場を混乱させたように、中国にも少なくとも 5~6 の競争力の高いブランドがあり、好調に推移しています。この競争についてどう思いますか?
ケナン:私たちは非常に興味深い段階にいると思います。このカテゴリは急速に成長しており、消費者、ブランド、メーカーから大きな関心を集めています。これは良いことです。先ほど言ったように、人々はさまざまな形、さまざまなアイウェア デザイン、さまざまな使用シナリオを試すことになるからです。しかし、課題の 1 つは、会社がどこにあっても、規模が大きか小さかろうとも、これはハードウェアからソフトウェア、マーケティングまで全体的に最適化する必要がある統合デバイスであるということです。
ソフトウェアだけを作っていると、この新しい形式に最適化することが難しくなります。たとえば、メガネの構造は安定しておらず、オーディオインターフェースのレイアウト、カメラの位置や性能などはすべて変化しています。同様に、モデル側を制御せずにハードウェアだけに焦点を当てると、モデルの品質とハードウェアの性能の一致など、システムとハードウェアの接続の課題を解決することが難しくなります。多くの大企業がこの分野に参入しているのは、ハードウェアからソフトウェア、チャネル統合まで最適化し、強力なブランドと販売ネットワークを通じてユーザーエクスペリエンスを向上させる能力を持っているからです。
多くのブランドが Ray-Ban Meta アーキテクチャに似た製品を発売していますが、ユーザー エクスペリエンスを本当に優れたものにするには、これらすべての異なるカテゴリの詳細に対処する必要があります。これは業界にとって良いことであり、私たちは前進し続けます。
Luo Yihang: 確かに、これにはハードウェア、ソフトウェア、マーケティングの完璧な組み合わせが必要です。Meta の Llama モデルに特有の、これら 3 つの側面における Meta の核となる利点は何ですか? ハードウェア部分での競争は非常に激しいですが、ソフトウェアと Llama モデルでは各社の能力にほとんど差がないようです。他の側面についてはどうですか? Meta のハードウェア能力をどのように評価しますか? 結局のところ、Meta はハードウェアで知られているわけではありませんよね?
Kenan: 素晴らしい質問ですね。EssilorLuxottica との提携が、特にこの分野でどのように当社に役立っているかについてお話しできます。おっしゃるとおり、当社はソフトウェア会社であり、モデル作成が得意です。しかし同時に、当社は長年ハードウェアを手掛けてきました。Reality Labs は設立から 10 年、私はそこで 6 年以上働いています。そのため、当社は消費者向け電子機器の製造で豊富な経験を持っています。
EssilorLuxottica や Ray-Ban と連携して仕事ができるのは素晴らしいことです。特に工業デザインの面で、人々が本当に愛するファッショナブルな製品や象徴的なデザインを創り出す方法を学ぶことができます。アイウェアの製造については私たちが知らないことがたくさんありますが、彼らは豊富な経験を持ち、世界最大の伝統的なアイウェア製造業者です。私たちは一緒に、これが色、素材、仕上げ、ハードウェアの機械設計にどのような影響を与えるかを検討しています。私たちも彼らから多くのことを学びました。
チャネルに関しては、Quest VRを通じて消費者向け電子機器のチャネルで経験を積んできました。しかし、メガネの分野は非常に異なります。メガネは顔に装着する医療機器です。レンズ設計、グラデーション処理、コーティングの最適化、チャネル販売、ブランドおよびデザイン戦略について、Essilor Luxotticaから多くを学びました。私たちは常に進歩しており、特にメガネで自らを改革し、VRでも良い仕事をしていると思います。興味深い改革になるでしょう。
Luo Yihang: これらの目標を達成するために、Meta がレンズ ブランドを買収するのは理にかなっているように思えますね。
ケナン:実は、当社はエシロールルックスオティカと長期戦略協力関係を築き、長期戦略協力協定を締結しました。エシロールルックスオティカはレイバンだけでなく、他の多くの有名ブランドを含む多くのブランドを所有しています。このような協力は当社に大きなメリットをもたらします。
象徴的なブランドの構築は一夜にしてできるものではありません。たとえば、ユーザーの中にはクラシックなレイバンのデザインを気に入っていて、スマートグラスにアップグレードしてブランドの魅力を楽しみ続けたいと考えている人もいます。このパートナーシップは、これをうまく実現するのに役立ち、スマートグラス開発の強固な基盤を築きます。
Luo Yihang: 次はおそらく最後の質問です。将来を見据えて、AI ハードウェア製品に関して、どのようなアイデアをお持ちで、興味がありますか? Ray-Ban Meta だけではありません。
ケナン:私は、さまざまな製品形態やシナリオの将来を非常に楽しみにしています。たとえば、教育分野や博物館のような環境では、ロボットや教育玩具などを通じて、人々が学び、創造できるよりインタラクティブなシナリオをどのように作り出すかに特に興味があります。物語を語るスマート玩具や、学習体験を強化する教育機器など、これらのコンセプトは魅力的です。
汎用機器の開発は確かに課題が多く、最も適した製品形態を見つける必要があります。しかし、将来的には、高度にパーソナライズされた製品やアンビエントデバイスなど、多くの試みが行われると思います。たとえば、美術館などの公共スペースで、プライベートな体験を維持しながらユーザーと対話できるツアーガイドデバイスをどのように設計しますか。このようなシナリオには大きな可能性があります。
教育、エンターテインメント、旅行など、具体的な場面で、これらのさまざまなデバイスがどのように実装されるのか、とても楽しみです。これらのイノベーションは人々の生活や生産方法を一変させると信じており、将来に期待が膨らみます。