Unstructuredは、企業データをLLMsに適した形式に整えるためのツールを提供しており、2500万ドルを調達しました。

TechCrunch 2023/7/20 00:00:52(JST)

Unstructured.ioは、大規模な言語モデル(LLM)を活用するために、企業データを抽出・整理するプラットフォームを提供している。企業は、ファイアウォールの内側にある独自のデータにアクセスできないため、LLMの採用に躊躇していた。Unstructured.ioは、広範なツールを提供し、広告や不要なオブジェクトの削除、テキストの連結、スキャンされたページの光学文字認識など、企業データをクリーンアップ・変換する支援を行っている。また、特定のPDFやHTML、Word文書などの処理パイプラインも提供している。


Unstructured.ioは、自社のNLPモデルを使用してファイルの変換を行い、テキストやタイトル、ヘッダー、フッターなどの要素を抽出する。さらに、既存のデータソースから文書を取り込むためのコネクタも提供している。また、LangChainやWeaviate、MongoDBのAtlas Vector Searchなどのプロバイダーとも統合している。これまでUnstructured.ioはオープンソースのデータ処理ツールを提供していたが、商用APIの提供も開始する予定であり、PowerPointやJPGなど25種類のファイル形式のデータ変換を行うことができる。


Unstructured.ioは、国防機関との関係が非常に密接であり、米空軍や米宇宙軍からの契約を受けている。また、米特殊作戦軍(SOCOM)とも提携し、ミッションに関連するデータと連携してLLMを展開している。Unstructured.ioの取締役には、元将軍であるMichael Groenや、元国防総省のDefense Innovation UnitのリーダーであるRyan Lewisなどがいる。このような国防関連の取引は、早期の収益源となっている可能性がある。Unstructured.ioは、シリーズAとシードラウンドで2500万ドルの資金調達を行ったことを発表した。

(※本記事はAIによって自動的に要約されています。正確な情報は引用元の記事をご覧ください。)
(※画像はAIによって自動で生成されており、引用元とは関係ありません。)
引用元の記事:Unstructured, which offers tools to prep enterprise data for LLMs, raises $25M.