
Dropboxの検索機能が、ここ数ヶ月で2度目となる大幅な強化を受けました。同社によると、PDFファイル内のテキスト検索に加え、JPGやPNGなどの画像ファイルも検索可能になったとのことです。
Dropboxは先月、機械学習をベースとした新しいエンジンを導入し、検索機能を大幅に強化しました。同社によると、検索機能に光学式文字認識(OCR)機能を初めて搭載したとのことです。
画像形式(JPEG、PNG、GIFなど)はテキストコンテンツを含まないため、一般的にインデックス作成できません。一方、テキストベースのドキュメント形式(TXT、DOCX、HTMLなど)は一般的にインデックス作成可能です。PDFファイルは、テキストと画像が混在する可能性があるため、その中間に位置します。自動画像テキスト認識機能は、これらのドキュメントをインテリジェントに識別し、含まれるデータを分類することができます。
そのため、ユーザーがこれらのファイルのいずれかに表示される英語のテキストを検索すると、検索結果に表示されるようになります。
ただし、 The Verge は、この機能はより高価なサブスクリプション プランに限定されていると指摘しています。
この新機能は英語のテキストに対応しており、Dropbox Business Advanced および Enterprise のユーザーが現在利用できます。また、数か月以内に Dropbox Professional 加入者にも提供される予定です。
これは、昨年同社のモバイルアプリに初めて導入されたのと同じ技術を採用しています。アプリで書類を撮影すると、同時にOCR処理が実行され、テキストが抽出されます。しかし、これは書類のごく一部にしか機能しませんでした。
OCR 機能を検索エンジンに直接実装することで、Dropbox では、スキャン方法や撮影方法に関係なく、すべての PDF ファイルと画像ファイル内のテキストを検索できるようになりました。
同社によれば、この新しい Dropbox 検索機能はユーザーにとって大きな変化をもたらすだろうという。
画像(画像を含むPDFファイルを含む)内のテキストを自動認識することの潜在的なメリットは計り知れません。Dropboxには200億以上の画像ファイルとPDFファイルが保存されています。これらのファイルのうち、10~20%は、文書そのものではなく、領収書やホワイトボードの画像など、文書の写真です。これらは、自動画像テキスト認識の対象となる可能性があります。同様に、これらのPDFの25%は、自動テキスト認識の対象となる文書のスキャンデータです。
同社によれば、Dropbox 検索内の OCR プロセスは計算集約的な性質を持つため、1 つの重要な制限を課す必要があったという。
一部の PDF ドキュメントには多数のページがあり、それらのファイルの処理にはより多くのコストがかかります。幸いなことに、長いドキュメントの場合、数ページをインデックスするだけでも、ドキュメントが検索からよりアクセスしやすくなる可能性が高いという事実を活用できます。そこで、サンプルの PDF のページ数の分布を確認し、ファイルごとに最大で何ページをインデックスするかを計算しました。PDF の半数は 1 ページのみで、約 90% は 10 ページ以下であることがわかりました。そのため、すべてのドキュメントの最初の 10 ページ、つまり 10 ページを上限としました。つまり、ドキュメントのほぼ 90% を完全にインデックスし、残りのドキュメントについても検索可能な十分なページをインデックスすることになります。
同僚のブラッドリー・チェンバースが先日、DropboxからiCloud Driveに乗り換え、それ以来ずっと使い続けている3つの理由を説明してくれました。しかし、個人的には、Dropboxが今でも私のメインのクラウドストレージです。それは主に、これまで試してきた数々の代替サービスよりも同期がはるかに速いからです。
写真: Shutterstock
Apple のニュースをもっと知りたい場合は、YouTube の 9to5Mac をご覧ください。
yiemt.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。