VB Transform Innovation Showcaseの受賞者:Unstructured.io

VentureBeat 2023/7/18 03:07:22(JST)

企業は現在、さまざまな環境に散らばった大量の非構造化データを抱えています。データサイエンティストは、依然として20年前と同じように、通常は手動で前処理ガイドラインを作成してそのデータを処理しています。しかし、Unstructured.ioの創設者兼CEOであるブライアン・レイモンド氏によれば、データサイエンティストは前処理が嫌いであり、それは歯医者に行くのと同じだと述べています。Unstructured.ioは、自然言語を使用してデータを生の形式から学習可能な形式に変換するためのプラットフォームであり、VentureBeat Transform 2023のイノベーションショーケースで最も成功する可能性があると選ばれました。”

“Unstructured.ioは、データをLLM(大規模言語モデル)に接続し、コンピュータビジョン、自然言語処理(NLP)、Pythonスクリプトなどのさまざまな技術を使用して複雑さを抽出します。非構造化データは整理され、アーティファクトが除去され、LLMに適した形になります。これはよりシンプルで高速な戦略であり、データサイエンティストは数百行の解析コードを書く必要がありません。”

“Unstructured.ioのエンタープライズAPIは、あらゆる種類の開発者に対してブラウザワークフローを可能にし、25以上のファイル形式と100以上の言語で数千の形式の前処理をサポートしています。また、無料のAPI、Google Colabノートブック、GitHub上で利用可能であり、PDF、HTML、Wordドキュメントなどのテキストドキュメントの前処理のためのオープンソースコンポーネントを提供しています。”

“レイモンド氏は、以前の雇用先で「データエンジニアリングの地獄」に陥った経験から、この会社のアイデアを思いついたと述べています。クリーンで構造化されたデータを取得するだけでも数年かかったと言います。Unstructured.ioは2022年に設立され、現在は企業向けのデータコネクタの開発に取り組んでおり、中断に耐えることができ、新しいファイルバージョンを検出し、簡単に並列化することができるものです。現在、同社は15のデータコネクタを持っており、今後30以上に増やす予定です。”

(※本記事はAIによって自動的に要約されています。正確な情報は引用元の記事をご覧ください。)
(※画像はAIによって自動で生成されており、引用元とは関係ありません。)
引用元の記事:VB Transform Innovation Showcase winner: Unstructured.io.