在巨量資料的世界裡,有意義的事件原委始於正確的連結關係

隨處均是巨量資料

舉目盡是巨量資料:從相連的機器網絡中不斷流出的資料、在資料倉儲裡的、在舊有應用程式裡的,以及在大型主機、網路上的…。因此從巨量資料取得有價值資料的第一項難題,即為將資料投入資料庫內,並且在不影響現有運作的情況下加以利用。

 

EXALEAD CloudView 以先進的網路爬蟲與可開發的 WWW 索引技術,以及與企業內外部非結構性及結構性巨量資料來源相連接的強大的連接埠套裝模組,來達成此項挑戰。
第二項挑戰為以自動化、工業化的方式整合多重資料來源,將不同種類的原始資料轉變成可引導行動的智慧情報。為此,EXALEAD CloudView 採用強大的語義分析處理流程技術,將非結構性資料建立有意義的結構並豐富其內容,更進而使其與結構性資料產生互相關聯性。

 

• 下載我們的巨量資料實用指南

 

資料蒐集

網路內容

EXALEAD 在充滿大量雜亂資料的網路環境裡,提出 HTTP 爬蟲技術這項擁有出色表現、強大又聰明的工具,讓使用單位能夠從網際網路中取得優質內容,包括從安全及開放來源(關於存取規則及權限),取得結構化及非結構化資料。

優點

  • 保證以非干擾式、安全又自動化的資料蒐集作業

  • 提供完全統一化的資料觀點

  • 確保在巨量資料的範疇內,擁有出色表現

EXALEAD CloudView 的客戶也能便捷地透過全球第三大的 EXALEAD 公共 WWW 搜尋引擎索引優質內容,豐富其資料庫和應用程式。
特定的社群媒體連接埠更進一步延伸 EXALEAD CloudView 的網路內容蒐集能力,使其能輕鬆地從 Facebook、LinkedIn 及 Twitter 等來源擷取相關資料。

  • 企業內容

  • CloudView 連接埠套裝模組適用於企業資料源的延伸範圍,包括檔案伺服器、XML 系統、資料庫、電子郵件系統、目錄、內容管理及協同作業系統,以及 ENOVIA 平台。

    EXALEAD 與 Informatica 的 OEM 協議更加延伸這項連結資料的能力:以先進的技術支援眾多巨量資料來源,包括企業應用程式、資料倉儲、商業智慧平台、大型主機、NoSQL 倉儲(例如 Hadoop HDFS),以及即時訊息佇列資料等等。

  • 客製化與舊有系統

    開放暨全文件化的應用程式介面(Application Programming Interface,API)完備了 EXALEAD CloudView 連接埠套裝模組的連結能力,使其能淘汰或客製化以標準網路協定和語言(HTTP/Rest、Java、C# 等)開發的舊有或自訂(客製化)的資料庫。

如需更多關於 EXALEAD CloudView 的資料擷取能力,請下載 EXALEAD 連接埠和格式資料表。

 

資料集成

雖然搜尋、發掘及分析個別巨量資料蒐集內容,能夠獲得更多有價值的資料,不過以有意義的方式交叉參考多元資料倉儲,才是最有可能獲得突破性見解及創新內容的方法。
具備「Map(映射)」和「Reduce(化簡)」處理架構及高性能語義處理流程技術的 EXALEAD CloudView,適用於集合多種不同的巨量資料來源。使用它發掘由以下項目組成之資料內隱藏的意義與關係:

  • 文件、電子郵件、通話紀錄及視訊等非結構化的內容

  • XML 紀錄,以及由智慧電表、RFID 讀取器、條碼掃瞄器、網路日誌和 GPS 軌跡裝置產生的機器資料等半結構化資料

  • 交易資料庫與資料倉儲內,高度結構化的關聯性資料

如需更多關於 EXALEAD CloudView 的語義處理管線資料,請下載 EXALEAD CloudView 語義技術白皮書