AI界からこんにちは!🚀
本日のニュースレターでは、以下の注目トピックをご紹介します。
・Google、AIによるアクセシビリティ機能を拡充:画像の説明、画面内容の読み上げなど多彩に進化
・OpenAI、GPT-4.1およびGPT-4.1 miniをChatGPTに導入──処理速度とプログラミング性能が向上
・Perplexity、PayPalと提携──米国でAI統合型ショッピング体験を提供へ
Google、AIによるアクセシビリティ機能を拡充:画像の説明、画面内容の読み上げなど多彩に進化
GoogleはAndroidとChromeにおいて、アクセシビリティ向上を目的としたAI機能の追加を発表した。視覚障がい者向けのスクリーンリーダー「TalkBack」に、同社のAIアシスタント「Gemini」とのインタラクション機能を統合し、ユーザーは画面上の情報に対して直接質問を行えるようになった。
2024年にTalkBackに導入された画像説明機能では、代替テキストが設定されていない画像でも内容を音声で伝えることが可能となった。今回のアップデートで、説明に加えて画像に関する追加情報を質問できるようになった。例えば、ギターの写真を受け取った場合、ブランド名や色、細部の特徴などを尋ねることができる。
また、画像に限らず、スマートフォンの画面上に表示されているあらゆるコンテンツに対して質問が可能になった。ショッピングアプリで商品の素材やセール情報などを確認する場面などで活用が見込まれる。
出典:Google
リアルタイム感情字幕「Expressive Captions」が進化:声のニュアンスまで表示
Androidで提供されているリアルタイム字幕機能「Expressive Captions」がアップデートされた。話者の発言内容に加え、感情表現を字幕として視覚化することができる。
音声の中で母音や語尾を引き延ばすなどの話し方の特徴をAIが認識し、字幕に反映する仕様となっている。たとえば、「amaaaazing shot」や「nooooo」といった発言が、そのまま文字に起こされる。また、口笛や咳払いなどの非言語的な音についても、ラベル表示によって認識されるようになった。
この機能は現在、アメリカ、イギリス、カナダ、オーストラリアの4カ国にて、Android 15以降のデバイスで利用可能となっている。
出典:Google
PDFとChromeのアクセシビリティも強化:スキャン文書の読み取りやズーム機能の改善
デスクトップ版Chromeブラウザには、光学文字認識(OCR)機能が追加された。これにより、これまでスクリーンリーダーでは扱えなかったスキャン形式のPDFファイル内のテキストにもアクセス可能となった。ユーザーはPDF内の文字を選択、コピー、検索できるようになり、通常のウェブページと同様の操作性が得られる。
加えて、Android版Chromeのページズーム機能も見直された。文字サイズの拡大がページ全体のレイアウトに影響を与えないよう設計されており、拡大率は個別設定が可能。すべてのウェブサイトに一括で適用することも、特定のページのみに適用することもできる。この機能はChrome右上の三点メニューから利用できる。
OPEN AI
OpenAI、GPT-4.1およびGPT-4.1 miniをChatGPTに導入──処理速度とプログラミング性能が向上
OpenAIは水曜日、公式X(旧Twitter)を通じて、ChatGPT向けに新たなAIモデル「GPT-4.1」と「GPT-4.1 mini」を発表した。
OpenAIの広報担当Shaokyi Amdo氏によると、GPT-4.1はコードの記述やデバッグ用途でChatGPTを利用するソフトウェアエンジニアにとって、特に有用とされる。新モデルは、従来の「oシリーズ」よりも高速で、指示の理解力やプログラミング性能が強化されているという。
GPT-4.1は、ChatGPTの有料プラン(Plus、Pro、Team)のユーザー向けに提供されている。一方で、軽量版となるGPT-4.1 miniは、無料を含むすべてのユーザーが利用可能。これに伴い、GPT-4.0 miniはChatGPTから廃止される。
GPT-4.1とGPT-4.1 miniは、今年4月から開発者向けAPIとして先行公開されていた。しかしリリース当時、AI研究コミュニティの一部からは、安全性に関する報告が欠けているとの批判が上がっていた。これに対しOpenAIは、GPT-4.1は性能やスピード面でGPT-4oより優れているが、いわゆる“フロンティアモデル”には該当しないため、同等レベルの安全報告は不要との見解を示している。
出典:Interconnects.ai
OpenAIの安全システム責任者であるJohannes Heidecke氏も、X上で「GPT-4.1は新たなインタラクション手法や知能的能力を持つわけではなく、o3を上回る知能もない。そのため、安全性に関する位置づけは異なる」と説明している。
同日、OpenAIは社内のAIモデルの安全性評価を定期的に公開する「Safety Evaluations Hub(安全性評価センター)」を設立。今後の透明性向上にも取り組む姿勢を示した。
今回のアップデートは、AIを活用したプログラミングツールへの関心が高まる中で行われた。OpenAIは現在、AIコーディングプラットフォーム「Windsurf」の買収に向けた交渉を進めており、評価額は約30億ドルに達するとみられる。
さらに同日、GoogleもAIチャットボット「Gemini」の更新を実施。GitHub上のプロジェクトとより簡単に連携できるよう改善が加えられた。
PERPLEXITY
Perplexity、PayPalと提携──米国でAI統合型ショッピング体験を提供へ
AIチャットボット兼検索ツールのPerplexityは水曜日、PayPalとの提携を発表した。今夏から、米国内のPerplexity Proユーザーは、チャット機能を通じて商品を検索・購入し、決済手段としてPayPalおよびVenmoを利用できるようになる。
PayPalの発表によれば、今回の連携は「エージェンティック・コマース(agentic commerce)」と呼ばれるコンセプトの一環で、AIが購入支援だけでなく、実際の取引も担うという。PayPalは決済処理に加え、配送手配や注文追跡、請求書発行も担う。
AIを用いたショッピングの仕組みはPerplexityが初ではなく、VisaやMastercardもすでに同様のアプローチを採用。消費者の許可を得た上で、購買傾向の分析や体験のパーソナライズにAIを活用している。
出典:Interconnects.ai
一方で、オンライン上でのクレジットカード情報や個人データの取り扱いには慎重さが求められる。個人情報の保護やデータ流出リスクが懸念される中、PayPalは不正検知システムやデータセキュリティプロトコルを導入するとしている。
現在、VisaとMastercardはワンタイムパスワード(OTP)によるカード情報のトークン化を進めており、決済の安全性を高めている。ただし、PayPalが同様の仕組みを導入するかについては明らかにされていない。
従来の買い物スタイルを続けるにせよ、新技術を試すにせよ、インターネット上では基本的なセキュリティ対策の徹底が重要だ。IPアドレスや個人情報を守るためにVPNの活用が推奨されており、銀行口座の動きを定期的に確認することで、不審な取引の早期発見につながる。
終わりに
本日の内容が、皆様のAI技術の活用や情報収集の一助となれば幸いです。もし本メールの内容がご参考になりましたら、ぜひご関心のあるご同僚やご友人とも共有いただけますと幸いです。
皆様に有益な情報をお届けできるよう、今後も注目トピックを厳選して配信してまいります。
次回のニュースも、ぜひご期待ください。今後ともどうぞよろしくお願いいたします。