EXALEAD CloudView 的用途為辨識、擷取與處理企業內外及網路上的文字及多媒體資訊。而我們的客戶用來發掘巨量數據資料內含價值的特定類型,

包括本文探勘、網路數據資料挖掘、多媒體分析及語義分析。

數據資料挖掘之特定類型

本文探勘

本文探勘或本文分析,是分析本文以辨識與擷取文字在嵌入及情境環境內具意義的資料和模式之處理流程。這些豐富的資料可用以搜尋更具關聯性的結果、自動分類和集合資料以進行導覽和篩選,以及支援質化和量化分析。還能將結構化和非結構化資料,整合為有意義的整體(例如整合 CRM 資料與社群媒體內容或網站活動日誌)。


在提供本文分析解決方案的廠商中,EXALEAD ClouldView 是唯一能夠以極少量的一般伺服器,以先進

優點

  • 找出非結構化資料裡隱藏的資訊情報

  • 將具價值的本文加入到結構化資料裡

處理技術做大範圍的應用。同樣地,在其廣泛的語義處理流程的可模組化和可配置性方面,亦有獨特地位。如需更多關於 EXALEAD CloudView 的語義處理流程資料,請下載 EXALEAD CloudView 語義技術白皮書

 

網路數據資料挖掘

在網路數據資料挖掘方面,是按照特定爬網目標搜尋辨識、擷取和處理相關網路內容。舉例來說,使用者可能想要從線上供應商目錄裡擷取相關明細,以驗證、豐富和延伸內部零件資料庫;或者想要從線上分類廣告來蒐集不動產市場情報(請參見 Akerys 個案研討內容)。
為了從網路這個全球最大的巨量資料來源擷取出最佳結果,EXALEAD CloudView 提供異於同業、產生高優質結果的網路爬蟲商業生態系統,同時賦予您最佳的表現和最少的索引數量。

其提供以下項目:

  • 全面性的資料擷取服務

    系統能夠擷取非結構化、半結構化及結構化的網路內容,包括由表單輸入及(或)資料庫查詢,而動態產生的深層網路(Deep Web)內容。

  • 質化篩選

    平台提供可設定的質化篩選功能,例如排除特定文件類型、將整個網站的內容視為單一網頁進行處理,以避免擠掉其他相關來源(website collapsing,網站崩毀),以及對於重複和近乎重複的內容偵測及套用特定規則。

  • 極佳表現

    EXALEAD CloudView採用更精確更新的策略,讓您可依企業需求和資源,調整網路爬蟲技術的寬度和深度,,只對準相關全新或調整後的內容,而非對所有內容重新進行網路爬蟲及重新索引,以提供最佳的系統效能表現。

 

EXALEAD CloudView 亦經過獨特設計,讓您不會對造訪的網站造成不必要的負擔,或是違反資料持有和隱私政策。 在蒐集好網路內容後,EXALEAD CloudView 會透過在前面本文探勘內所述之相同健全的語意處理流程加以運用。

 

 

多媒體分析

在由使用者產生的內容裡,多媒體內容是成長最快速的一個類別,每天有數百萬個照片、聲音檔、視訊檔案上傳到網路和企業伺服器。若只依靠人工加上的標籤或檔名等基本相關詮釋資料存取和理解內容,那麼是不可能在巨量資料這個龐大的範圍內,探索並利用此類內容。 幸運的是,EXALEAD CloudView 無縫整合自動文字轉語音及物件辨識處理(內容式影像擷取,Content-Based Image Retrieval,CBIR)等技術,使得客戶能從內到外建構多媒體內容、讓使用者擁有全新重要存取大量多媒體蒐集內容的能力,以及能夠在醫療、媒體、出版、環境科學、鑑識和數位資產管理等領域,開發創新應用技術。

 

語義分析

CloudView 的語義分析架構運用語意技術,自動發掘、擷取和摘要說明無結構性內容裡的情緒和看法。這項處理技術有時候會運用在防火牆後的內容,如電子郵件、通話紀錄和客戶/選民調查。然更常見的應用是,處理在網路上最廣泛的有關人群、產品到企業的公開想法和議題資訊來源。
對網路進行語義分析一般會從特定網路來源(產業網站、媒體、部落格、論壇、社群網站等)蒐集資料、將這項內容與內部系統(服務、產品、人員、項目等)裡的目標實體進行交叉參考,並且在 EXALEAD CloudView 索引中,擷取及摘要說明此交叉參考內容中的語意。
在建立此語意資料知識庫後,可透過全文檢索、多層面瀏覽、量化儀表板與自由暢通的探索分析來加以運用。請參見「任一使用者分析」(Any-User Analytics)頁面裡的語義分析單元