具有大量多渠道交易的信息數(shù)字化導(dǎo)致數(shù)據(jù)洪泛。數(shù)字?jǐn)?shù)據(jù)的日益增長(zhǎng)的速度迫使世界組合的數(shù)據(jù)有兩方面。根據(jù)Gartner的報(bào)告,一家公司約80%的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)。它包括來自消費(fèi)者電話,電子郵件和社交平臺(tái)意見的數(shù)據(jù)。除此之外,通過各種用戶設(shè)備記錄的診斷信息生成大量的數(shù)據(jù)。首先,有組織的數(shù)據(jù)本身是如此巨大,它需要一個(gè)很大的努力來分析它。對(duì)非結(jié)構(gòu)化數(shù)據(jù)的理解將比結(jié)構(gòu)化數(shù)據(jù)困難得多。
雖然經(jīng)歷了大量的數(shù)據(jù)似乎是一個(gè)艱巨的任務(wù),但最后,這將是有益的。通過非結(jié)構(gòu)化數(shù)據(jù)集,可以通過檢測(cè)不相關(guān)的數(shù)據(jù)源之間的連接來找出關(guān)系和模式。通過這種分析方法可以發(fā)現(xiàn)趨勢(shì),這將是對(duì)企業(yè)有用的見解。
分析非結(jié)構(gòu)化數(shù)據(jù)的步驟:
使用相關(guān)數(shù)據(jù)源
要開始,了解對(duì)分析有重要意義的數(shù)據(jù)源至關(guān)重要。流式傳輸視頻,聊天,電子郵件,語音文件和博客,所有這些都來自非結(jié)構(gòu)化數(shù)據(jù)源。如果這些信息與這個(gè)問題有很大的聯(lián)系,那么它必須放在一邊。只有相關(guān)數(shù)據(jù)來源才能用于分析,從而產(chǎn)生相關(guān)的結(jié)果。
定義分析要求
如果未定義終端要求,分析可能會(huì)變得無用。知道預(yù)期會(huì)有什么樣的結(jié)果是關(guān)鍵。期望可能是體積,模式,原因,影響或完全不同。另外,應(yīng)該給出分析結(jié)果的使用路線圖,以便在分割和整合之前的預(yù)測(cè)分析中可以使用它們。
挑選用于數(shù)據(jù)并入和存儲(chǔ)的技術(shù)棧
新數(shù)據(jù)可以從各種數(shù)據(jù)源中獲取。分析結(jié)果應(yīng)保存在技術(shù)堆?;蛟拼鎯?chǔ)中,以便將數(shù)據(jù)更容易地用于分析目的。采摘數(shù)據(jù)存儲(chǔ)系統(tǒng)取決于可擴(kuò)展性,數(shù)量和速度需求等各個(gè)方面。為數(shù)據(jù)并入和存儲(chǔ)選擇正確的技術(shù)棧是至關(guān)重要的。項(xiàng)目信息架構(gòu)只有在對(duì)技術(shù)棧的最終要求進(jìn)行評(píng)估后才能設(shè)置。
在發(fā)送到數(shù)據(jù)倉庫之前,使用數(shù)據(jù)湖保留數(shù)據(jù)
通常,公司收集數(shù)據(jù),清理和存儲(chǔ),如果數(shù)據(jù)源是HTML文件,只有文本將被提取存儲(chǔ)。來自HTML文件的其他信息將丟失,使其在存儲(chǔ)在數(shù)據(jù)倉庫中似乎相同。上述方法的請(qǐng)求是,數(shù)據(jù)是未經(jīng)破壞的,可更改的格式。可以根據(jù)要求使用。雖然,隨著大數(shù)據(jù)的到來,數(shù)據(jù)湖被用于以原始格式存儲(chǔ)數(shù)據(jù)。所以當(dāng)它被認(rèn)為是有益的并且是必需的原因數(shù)據(jù)可以以其原始格式提供。它使用可能有助于分析的所有信息來保護(hù)數(shù)據(jù)。
清理數(shù)據(jù)
建議清理數(shù)據(jù)副本,并保留原始文件的原始格式。例如,一個(gè)文本文件可能會(huì)產(chǎn)生大量的噪音,這些噪音是模糊的重要信息。在將休閑文字變成正式文件的同時(shí),消除諸如空白,符號(hào)之類的噪音的好方法??谡Z應(yīng)分別指定和保存。應(yīng)刪除重復(fù)的信息。
本體評(píng)估
源和實(shí)體之間的連接可以通過分析來構(gòu)建特定結(jié)構(gòu)化的數(shù)據(jù)庫。這可能是一個(gè)耗時(shí)的任務(wù),但獲得的見解對(duì)于任何業(yè)務(wù)都是重要的。
數(shù)據(jù)建模與文本挖掘
數(shù)據(jù)應(yīng)分類和分段后創(chuàng)建數(shù)據(jù)庫。它將消耗更少的時(shí)間,同時(shí)利用監(jiān)督和無監(jiān)督的機(jī)器學(xué)習(xí)。
消費(fèi)者行為相似和比較可以通過這些工具找到。這將有助于設(shè)計(jì)一個(gè)運(yùn)動(dòng)。消費(fèi)者的性質(zhì)可以通過意見和反饋的情感分析來確定。
實(shí)際價(jià)值在于使用數(shù)據(jù)分析360度洞察力。它應(yīng)該對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行綜合分析。結(jié)構(gòu)化數(shù)據(jù)可以預(yù)測(cè)消費(fèi)者行為。非結(jié)構(gòu)化數(shù)據(jù)分析可以揭示這種行為背后的動(dòng)機(jī)。像社交平臺(tái)這樣的新鮮數(shù)據(jù)源對(duì)企業(yè)至關(guān)重要,因?yàn)樗鼈兲峁┝丝梢苑治龅莫?dú)特信息。數(shù)據(jù)科學(xué)家需要掌握新的適當(dāng)?shù)募寄軄矸治龇墙Y(jié)構(gòu)化數(shù)據(jù)。