ここ最近、毎日のようにAIに関する新しい情報が飛び交っています。ジェネレーティブAIは、仕事面だけではなく、生活面でも大きなインパクトを与える可能性のある存在です。
この記事では、AIに関連する最新のニュースをまとめてお届けします。日々更新されているAI情報のアップデートに、ぜひご活用ください。
ChatGPT、画像・音声認識と発話機能を追加
出典:OpenAI
OpenAIは、ChatGPTに画像認識、音声認識、および発話機能を追加したと発表した。この新機能は、今後2週間でPlusユーザーとEnterpriseユーザーに提供される予定である。画像認識機能は、写真やスクリーンショット、テキストと画像を含むドキュメントの読み取りが可能で、音声機能はiOSとAndroidで利用できる。
画像認識は、複数の画像の読み取りや、特定の部分を認識する機能も備えている。また、音声認識はOpenAIの「Whisper」を使用しており、5つの異なる音声から選択できる。新しいtext-to-speechモデルを採用しており、テキストとサンプル音声だけで人間のような声を生成することができる。
https://www.itmedia.co.jp/news/articles/2309/25/news170.html
Google「Bard」、新機能追加で真偽確認やメール要約が可能に
出典:Google
GoogleはBardに新機能を追加すると発表した。この新機能により、AIからの回答の真偽を確認することができるようになった。さらに、Googleの他のサービスに存在する個人データを分析することも可能となる。
この新機能の追加により、Bardはユーザーにより高度な情報提供とサポートを行うことができるようになる。将来的には外部企業のアプリとの連携も視野に入れているという。
https://jp.reuters.com/article/tech-ai-bard-idJPKBN30Q015
画像生成AI「DALL・E 3」、10月にChatGPT PlusとAPIで利用可能に
出典:DALL・E3
OpenAIは、文章から画像を生成するAIの新バージョン「DALL・E 3」を発表した。「ChatGPT Plus」と「ChatGPT Enterprise」のユーザーは、10月からこの新機能を利用できるようになる。さらに、今秋中にAPIとラボ経由での提供も開始される予定だ。
「DALL・E 3」は、前バージョン「DALL・E 2」に比べて、長いプロンプトの理解力が大幅に向上している。これにより、多くのニュアンスや詳細を理解し、アイデアを非常に正確な画像に変換することができる。また、生成された画像の所有権はユーザーにあり、OpenAIの許可なしに転載や販売が可能である。
https://www.itmedia.co.jp/news/articles/2309/21/news083.html
YouTube、AI搭載の新ツールをクリエイター向けに発表
YouTubeが発表したAI搭載の新ツール(出典:YouTube)
YouTubeはクリエイター向けイベント「Made on YouTube」で、AIを活用した新しいツールを発表した。その中でも注目は「Dream Screen」で、これはYouTubeショートの背景を生成AIで作成する機能だ。ユーザーはプロンプトにアイデアを入力することで、AIが生成した動画や画像の背景をショートに追加できる。
さらに、スマートフォン用の動画作成アプリ「YouTube Create」や、動画のアイデアを生成AIで提案する「YouTube Insights」、吹き替えツール「YouTube Aloud」などの新機能も紹介された。特に「YouTube Aloud」は、動画の音声を生成AIで吹き替えるツールとして、英語やポルトガル語、スペイン語での試験運用が進められている。
これらの新機能は、クリエイターがより高品質なコンテンツを効率的に制作するためのサポートを目的としており、今後のYouTubeのコンテンツ制作に大きな影響を与えることが期待される。
https://www.itmedia.co.jp/news/articles/2309/22/news098.html
Amazonのスマートスピーカー「Alexa」、生成AI搭載で会話能力を向上
Amazonは、音声アシスタント「Alexa」に生成AIを導入することを発表した。この新機能により、Alexaは継続的な会話や会話の記憶、さらには各家庭向けのカスタマイズが可能となる。米国のユーザーには数カ月以内にこの新機能が提供される予定だ。
従来のAlexaはシンプルな質問と応答の形式しか取れなかったが、生成AIの導入により、複数回の会話やボディランゲージ、アイコンタクトなどの非言語的な合図も理解できるようになる。この機能は新しい大規模言語モデル「Alexa LLM」を基にしており、各家庭のニーズに合わせてパーソナライズされた体験を提供する。
音声認識エンジンも一新され、人間の話し方や一時的な停止を認識して、より自然な会話を実現する。また、音声合成技術も向上し、流暢な発音が可能となった。Amazonのこの動きは、他のテック企業もスマートスピーカーの生成AI搭載を進めている中で、先駆けとなる形だ。
https://www.itmedia.co.jp/news/articles/2309/21/news084.html
Microsoft 365 Copilot、AIを統合した新Officeを公開
出典:Microsoft
Microsoftは、生成AIを組み込んだ「Microsoft 365 Copilot」を11月1日からエンタープライズ向けに公開すると発表した。このサービスは、Word、Excel、PowerPoint、Outlook、TeamsなどのOfficeアプリに生成AIが搭載され、対話型AIを利用してPowerPointの資料の自動作成やOutlookでのメールの自動作成、Excelのデータからのグラフの自動作成などの機能が提供される。
また、新たに「Microsoft 365 Chat」というアプリが紹介され、このアプリを中心にOfficeアプリの操作が行えるようになる。このアプリを使用すると、AIとの対話だけでOfficeアプリのほとんどの操作が可能になる。例として、365 Chatアプリ内でメールの要約の作成や、PowerPointとWordファイルからの文章の作成、メールの送信などのデモが行われた。
https://www.gizmodo.jp/2023/09/microsoft-365-copilot-ai-generally-available.html
SpotifyのPodcast、OpenAIの技術で多言語吹き替えが可能に
出典:Spotify
Spotifyは、Podcastをホスト自身の声で複数言語に吹き替える新機能「Voice Translation」を発表した。この技術はOpenAIが新しく発表した音声技術と、3月にリリースされた音声文字起こしツール「Whisper」を組み合わせて使用している。
OpenAIの新しい音声技術は、実際の音声から数秒間でリアルな合成音声を作成することができる。Spotifyは、この技術を利用して英語のPodcastをホストの声でスペイン語に吹き替え、公開を開始した。今後はフランス語やドイツ語などの吹き替えも提供予定であり、提携ホストも増やしていく計画だ。
https://www.itmedia.co.jp/news/articles/2309/26/news095.html
Getty Images、NVIDIAと提携し“商業的に安全”なAI画像生成ツールを公開
出典:Getty
ストック画像サービスのGetty Imagesは、生成AI画像ツールを発表。このツールはNVIDIAのPicassoでトレーニングされたもので、「商業的に安全」とされている。具体的には、ユーザーがこのツールで生成したコンテンツを商用利用する場合、Getty Imagesの標準ロイヤリティフリーライセンスを取得することで、著作権訴訟から保護される。
Getty Imagesは、このサービスを通じて、安全な生成AIコンテンツを提供するとともに、コンテンツのトレーニングに貢献したクリエイターに報酬を提供すると述べている。
https://www.itmedia.co.jp/news/articles/2309/26/news097.html
米Adobeなどが「PDFTriage」を開発、PDFやプレゼン資料からの質問に回答可能
米スタンフォード大学と米Adobe Researchの研究者らは、WebページやPDF論文、プレゼンテーション資料などの複雑な構造のドキュメントに対するテキストプロントに適切に回答する大規模言語モデル向けの方法「PDFTriage」を提案した。
この手法は、文書の構造に関するメタデータへのアクセスを持つことで、構造や内容に基づいてコンテキストを取得できる。具体的には、ドキュメントの構造化されたメタデータ表現を生成し、セクションのテキストや図のキャプション、ヘッダ、テーブルに関する情報を抽出する。そして、質問が与えられると、質問に答えるために必要なドキュメントのフレームを選択し、選択されたページやセクション、図、またはテーブルから直接それを取得する。
https://www.itmedia.co.jp/news/articles/2309/28/news054.html
GPT-4を上回る性能のAI「Xwin-LM」が公開
出典:Hugging Face
OpenAIの生成AI「GPT-4」を上回るとされるAI「Xwin-LM」が、AIモデル共有サイト「Hugging Face」にて公開された。このAIは、言語モデルのベンチマークサイト「AlpacaEval」でGPT-4を追い越し、1位を獲得。開発者の具体的な名前は公表されていないが、GitHubの履歴から、中国科学院や清華大学の研究者らが関与していることが示唆される。
Xwin-LMは、Metaが公開したAI「Llama2」を基盤としており、さまざまな技術を駆使して調整されている。特に、最大のモデル「Xwin-LM-70B-V0.1」は、AlpacaEvalの評価で95.57%の勝率を記録し、GPT-4の95.28%を上回った。しかし、ベンチマークの結果が実際の性能を示すわけではなく、他のテスト結果や実際の使用感による評価が待たれる。
https://www.itmedia.co.jp/news/articles/2309/21/news085.html
OpenAI、既存株売却を検討
©skorzewiak/123RF.COM
ChatGPTを開発したOpenAIが、株式売却の可能性について投資家と協議中であると、ウォールストリート・ジャーナルが報じた。この報道によれば、株式売却の価値に基づくと、OpenAIの企業価値は800億から900億ドルに達する可能性がある。
https://jp.reuters.com/markets/japan/LSAXFK2CNFOR5DM42Z3AHRNEFM-2023-09-26/
アート引越センター、見積を自動算出するAIアプリ開発中
アート引越センターが開発中のアプリの概要(出典:PR Times)
アート引越センターは、顧客がスマートフォンで室内を撮影するだけで、AIが引っ越し料金を自動で算出する「AI引越見積りアプリ」(仮)の開発を開始したと発表。2024年2月のサービス開始を目指している。このアプリでは、スマホで部屋を撮影すると、そのデータを基に3Dモデルが自動生成され、物量積算AIエンジンが数分で見積り金額を自動算出する。
このサービスは、アート引越センターのDX施策の一環として導入される。同社はこれまでにも、ネット上での見積り完結サービスや、テレビ会議システムを使用したリモート見積りなどを提供してきた。
https://www.itmedia.co.jp/news/articles/2309/27/news131.html
GitHub Copilot Chatベータ版、個人ユーザー向けに提供開始
GitHubは、すべての「GitHub Copilot for Individuals」ユーザーが「GitHub Copilot Chat ベータ版」にアクセスできるようになったと発表。このベータ版は、2023年7月に「GitHub Copilot for Business」のユーザー向けに提供が開始されていた。GitHub Copilot Chatを利用すると、開発者は自然言語を使用して迅速に開発を進めることができる。
現在、GitHub Copilot Chatのベータ版は、Visual StudioとVisual Studio Codeの両方でサポートされている。また、「GitHub Copilot for Individuals」のユーザーは無料で「GitHub Copilot Chat ベータ版」を利用できるようになった。このベータ版を有効にすると、Visual StudioやVisual Studio CodeからChatGPTに質問をすることができ、新しいフレームワークの学習や現在のコードに関する質問を行うことができる。
https://news.mynavi.jp/techplus/article/20230923-2776750/
まとめ
AIに関連する最近の主なニュースについて紹介しました。定期的に更新予定ですので、情報のアップデートにぜひご活用ください。
AI技術はこれからさらに発展していくと予測されているので、早い段階で基本的な活用方法を取り入れておくことが大切です。SEデザインでは、IT分野におけるBtoBマーケティング&セールス支援を行っており、30年以上の実績がございます。業務の効率化や顧客へのアプローチでお困りの際は、お気軽にSEデザインへご相談ください。