水蜜桃一区一一区三区四区,丰满熟妇精品无码

?背景

?知識(shí)庫需求在各行各業(yè)中普遍存在，例如制造業(yè)中歷史故障知識(shí)庫、游戲社區(qū)平臺(tái)的內(nèi)容知識(shí)庫、電商的商品推薦知識(shí)庫和醫(yī)療健康領(lǐng)域的掛號(hào)推薦知識(shí)庫系統(tǒng)等。為保證推薦系統(tǒng)的實(shí)效性和準(zhǔn)確性，需要大量的數(shù)據(jù)/算法/軟件工程師的人力投入和包括硬件在內(nèi)的物力投入。其次，為了進(jìn)一步提高搜索準(zhǔn)確率，如何引導(dǎo)用戶搜索描述更加準(zhǔn)確和充分利用用戶行為優(yōu)化搜索引擎也是常見的用戶痛點(diǎn)。此外，如何根據(jù)企業(yè)知識(shí)庫直接給出用戶提問的答案也是眾多企業(yè)中會(huì)遇見的技術(shù)瓶頸。

?本文旨在介紹一些企業(yè)知識(shí)庫的典型實(shí)用場(chǎng)景，以及如何使用智能搜索，結(jié)合大語言模型，針對(duì)企業(yè)知識(shí)庫提供基于搜索的精準(zhǔn)問答。

??各行各業(yè)中有很多場(chǎng)景需要基于企業(yè)知識(shí)庫進(jìn)行搜索和問答

?1.構(gòu)建裝備維護(hù)知識(shí)庫和問答系統(tǒng)：使用歷史維保記錄和維修手冊(cè)構(gòu)建企業(yè)知識(shí)庫，維修人員可依靠該知識(shí)庫，快速地進(jìn)行問題定位和維修。

?2.構(gòu)建IT/HR系統(tǒng)智能問答系統(tǒng)：使用企業(yè)內(nèi)部IT/HR使用手冊(cè)構(gòu)建企業(yè)知識(shí)庫，企業(yè)內(nèi)部員工可通過該知識(shí)庫快速解決在IT/HR上遇到的問題。

?3.構(gòu)建電商平臺(tái)的搜索和問答系統(tǒng)：使用商品信息構(gòu)建商品數(shù)據(jù)庫，消費(fèi)者可通過檢索+問答的方式快速了解商品的詳細(xì)信息。

?4.構(gòu)建游戲社區(qū)自動(dòng)問答系統(tǒng)：使用游戲的信息（例如游戲介紹，游戲攻略等）構(gòu)建社區(qū)知識(shí)庫，可根據(jù)該知識(shí)庫自動(dòng)回復(fù)社區(qū)成員提供的問題。

?5.構(gòu)建智能客戶聊天機(jī)器人系統(tǒng)：通過與呼叫中心/聊天機(jī)器人服務(wù)結(jié)合，可自動(dòng)基于企業(yè)知識(shí)庫就客戶提出的問題進(jìn)行聊天回復(fù)。

?6.構(gòu)建智能教育輔導(dǎo)系統(tǒng)：使用教材和題庫構(gòu)建不同教育階段的知識(shí)庫，模擬和輔助老師/家長(zhǎng)對(duì)孩子進(jìn)行教學(xué)。

?為解決上述場(chǎng)景需求，可通過結(jié)合搜索和大語言模型的方式來實(shí)現(xiàn)。首先，可以利用企業(yè)自身積累的數(shù)據(jù)資產(chǎn)建立一個(gè)知識(shí)庫。其次，對(duì)于特定的問答任務(wù)，可以使用搜索功能對(duì)知識(shí)庫進(jìn)行有效的召回，然后將召回的知識(shí)進(jìn)行利用，增強(qiáng)大語言模型。通過這一方法，可以實(shí)現(xiàn)對(duì)問答任務(wù)的解決。

?在企業(yè)知識(shí)庫建立和搜索服務(wù)方面，亞馬遜云科技擁有云端托管式搜索服務(wù)Amazon OpenSearch和基于AI/ML的智能企業(yè)搜索服務(wù)Amazon Kendra。雖然上述服務(wù)能夠提供基本的搜索引擎和框架，解決了用戶在硬件投入大和管理難的痛點(diǎn)，然而上述服務(wù)并且不能夠滿足基于文檔的進(jìn)行問答需求。為了解決用戶需求和亞馬遜云科技服務(wù)之間的差距，借助亞馬遜云科技的服務(wù)，構(gòu)建了基于智能搜索的大語言模型增強(qiáng)方案。該方案以Amazon OpenSearch/Amazon Kendra為基礎(chǔ)構(gòu)建搜索引擎，結(jié)合托管到Amazon SageMaker上的大語言模型，提供一站式的智能知識(shí)庫搜索問答平臺(tái)。

??基于智能搜索的大語言模型增強(qiáng)方案介紹

?架構(gòu)圖

?該平臺(tái)將包括五大核心內(nèi)容

?1. 智能搜索

?傳統(tǒng)僅依靠關(guān)鍵詞匹配的分詞搜索的方式在很多場(chǎng)景下可以提供快速有效的查詢，但是也存在一些固有的局限性。例如匹配一些包括停用詞在內(nèi)的無關(guān)詞匯，無法識(shí)別同義詞和缺乏抽象能力。為了解決這些問題，本方案中一方面使用意圖識(shí)別模型，對(duì)關(guān)鍵信息進(jìn)行提取，從而可以有效的避免停用詞等無法詞匯對(duì)搜索造成的干擾。另一方面，引入AI/ML的方法來輔助實(shí)現(xiàn)語意搜索。具體來講，使用同一個(gè)向量編碼的模型對(duì)搜索語句和文檔數(shù)據(jù)庫進(jìn)行語意編碼，在檢索的過程中，使用knn方法進(jìn)行向量匹配。以下是一個(gè)傳統(tǒng)分詞搜索與語意向量搜索的對(duì)比展示?？梢钥吹?，使用向量搜索功能后，可以召回更多自然語意上相近而關(guān)鍵詞無關(guān)的內(nèi)容，增加召回范圍和提升搜索準(zhǔn)確性。

?在本方案中，以Amazon OpenSearch和Amazon Kendra為基礎(chǔ)構(gòu)建搜索引擎。提供分詞搜索，模糊查詢和AI/ML輔助搜索功能。不在局限于某一種搜索方式，而是將所有搜索方法取長(zhǎng)補(bǔ)短，進(jìn)行有機(jī)的整合。

?智能引導(dǎo)

?造成搜索不準(zhǔn)確的原因，一方面是由于搜索引擎本身的能力不足，另外一方面的原因是因?yàn)樗阉鞯恼Z句不夠準(zhǔn)確和具體。因此，本方案中提出了一種引導(dǎo)式的搜索機(jī)制來幫助檢索人員逐步豐富輸入的搜索語句，最終達(dá)到提升搜索準(zhǔn)確性的目的。

?以下面制造業(yè)大型設(shè)備維保知識(shí)庫的搜索流程為例。該知識(shí)庫存儲(chǔ)歷史維修記錄，包括故障現(xiàn)象，故障原因，維修方案等字段。

當(dāng)用戶輸入檢索詞“電路”后，除了從知識(shí)庫中返回與電路相關(guān)的條目之外，還會(huì)給予一些提示詞，例如“門系統(tǒng)”、“控制系統(tǒng)”等，這些詞代表與“電路”相關(guān)的故障往往伴隨可能出現(xiàn)問題的系統(tǒng)，提示用戶進(jìn)一步豐富當(dāng)前的搜索描述。
當(dāng)用戶進(jìn)一步輸入“主板”后，會(huì)將“電路”和“主板”進(jìn)行聯(lián)合查詢，返回相關(guān)的條目，并進(jìn)一步給出新的提示詞。
用戶可以重復(fù)以上過程，直到搜索出來更為精準(zhǔn)的結(jié)果。

?提示詞的獲?。焊鶕?jù)實(shí)際情況，可以采用人工打標(biāo)、無監(jiān)督聚類、有監(jiān)督分類、大語言模型（LLM）等方法進(jìn)行提取，并提前注入到數(shù)據(jù)庫中。

?智能優(yōu)化

?通常情況下，由于知識(shí)庫的迭代更新，檢索的準(zhǔn)確率可能會(huì)隨時(shí)時(shí)間的推薦逐步降低，一方面是因?yàn)槲覀兺荒鼙ＷC，數(shù)據(jù)庫和搜索引擎一次性構(gòu)建完成后就達(dá)到很好的效果。另外一方面是因?yàn)閷?duì)于過時(shí)的知識(shí)沒有進(jìn)行有效的處理。因此，本方案提出以用戶行為對(duì)搜索引擎進(jìn)行持續(xù)優(yōu)化。

?具體來講包括兩個(gè)步驟：

用戶行為收集：將歷史用戶的行為進(jìn)行收集，例如用戶對(duì)某個(gè)搜索詞條的打分。
模型訓(xùn)練和部署：通過用戶行為，整理得到搜索詞條和知識(shí)庫之間的相關(guān)度。使用該相關(guān)度訓(xùn)練和部署一個(gè)重排模型，該重排模型可以根據(jù)歷史的用戶行為，給予用戶更加偏好的內(nèi)容更高的權(quán)重得分。

?值得注意的是，該模型是基于傳統(tǒng)機(jī)器學(xué)習(xí)模型xgboost的，所以所需要的訓(xùn)練數(shù)據(jù)量和推理所需要的資源都是很小的（例如只需要幾十條數(shù)據(jù)和t3.small機(jī)型），因此可以基于不同的用戶/用戶群訓(xùn)練不同的重排模型，達(dá)到千人千面，個(gè)性化搜索的目的。

?4.智能問答

?基于私有知識(shí)庫進(jìn)行問答是另外一個(gè)廣泛應(yīng)用的場(chǎng)景，例如智能客戶聊天機(jī)器人系統(tǒng)，IT/HR系統(tǒng)智能問答系統(tǒng)等。

?如果僅使用搜索引擎，只能基于問題從數(shù)據(jù)庫中提取與該問題相關(guān)的內(nèi)容，而不能直接給出答案。

?如果僅使用大語言模型（Large Language Model，LLM），不能基于私有知識(shí)庫進(jìn)行問答。一種可行的方式是將私有知識(shí)庫和問題直接以prompt的形式直接一次性給到LLM，然后讓LLM給出回答。但是受限于LLM Token的限制，無法一次性輸入過多的知識(shí)庫。

?因此，在本方案中，將兩者結(jié)合。如下圖所示，當(dāng)用戶提出一個(gè)問題后，首先使用搜索提取與問題相關(guān)的知識(shí)，然后再將問題和提取的知識(shí)給到LLM進(jìn)行總結(jié)，最后直接給出問題答案。

?5.?非結(jié)構(gòu)化數(shù)據(jù)注入

?可供搜索引擎進(jìn)行檢索的企業(yè)知識(shí)庫是一種結(jié)構(gòu)化的數(shù)據(jù)，但往往企業(yè)的原始知識(shí)都是以非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行存儲(chǔ)的，來自多個(gè)渠道，也包含了多種格式，例如Words，PDF，Excel等。

?為了能夠幫助企業(yè)快速將這些結(jié)構(gòu)化數(shù)據(jù)利用起來，本方案提供了非結(jié)構(gòu)化數(shù)據(jù)注入功能，該功能將企業(yè)的知識(shí)文檔進(jìn)行自動(dòng)段落拆分和向量編碼，建立結(jié)構(gòu)化企業(yè)知識(shí)庫。

??模型技術(shù)細(xì)節(jié)

?LLM

?最近半年，大語言模型（LLM）在自然語言處理領(lǐng)域取得了飛速的發(fā)展。大語言模型通常基于Transformer架構(gòu)，在大規(guī)模的網(wǎng)絡(luò)文本數(shù)據(jù)上進(jìn)行訓(xùn)練，其核心是使用一個(gè)自我監(jiān)督的目標(biāo)來預(yù)測(cè)部分句子中的下一個(gè)單詞。亞馬遜云科技已推出大語言模型Titan和大語言模型平臺(tái)Amazon Bedrock，另外還有許多研究機(jī)構(gòu)推出開源大語言模型，如斯坦福大學(xué)的Alpaca和清華大學(xué)的ChatGLM等。這些大語言模型都具備強(qiáng)大的文本處理能力，廣泛應(yīng)用在智能問答、文本總結(jié)、文本生成等場(chǎng)景。

?Embedding

?各類非結(jié)構(gòu)化數(shù)據(jù)廣泛存在于我們的生活和工作場(chǎng)景，如文本、圖片、視頻等，為了處理這些非結(jié)構(gòu)化數(shù)據(jù)，亞馬遜云科技通常使用Embedding模型提取這些數(shù)據(jù)的特征，并把數(shù)據(jù)特征轉(zhuǎn)化成向量，通過特征向量對(duì)這些非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析和檢索。通用的預(yù)訓(xùn)練語言模型都有把文本進(jìn)行向量化的功能，可以根據(jù)不同的場(chǎng)景和語種，選用合適的預(yù)訓(xùn)練模型作為Embedding模型。

?Intent Detection

?搜索意圖識(shí)別主要功能是分析用戶的核心搜索需求，例如在電商場(chǎng)景，用戶找的電子產(chǎn)品，是電腦類的，還是手機(jī)類的，是家庭場(chǎng)景用的，還是戶外場(chǎng)景用的等等，如果意圖識(shí)別不準(zhǔn)，會(huì)有很多不相關(guān)的商品展現(xiàn)給用戶，導(dǎo)致產(chǎn)生非常差的用戶體驗(yàn)，因此精準(zhǔn)的意圖識(shí)別非常重要。意圖識(shí)別主要包括類目預(yù)測(cè)和實(shí)體識(shí)別模型，類目預(yù)測(cè)模型主要采用文本多分類模型，根據(jù)平臺(tái)的用戶行為數(shù)據(jù)，將查詢文本預(yù)測(cè)屬于各個(gè)類目的概率。實(shí)體識(shí)別模型將查詢文本中的實(shí)體詞識(shí)別出來，實(shí)體詞是描述商品的維度信息，如品牌、顏色、材質(zhì)等，通過實(shí)體識(shí)別模型識(shí)別出查詢文本的實(shí)體詞后，再到搜索引擎進(jìn)行精準(zhǔn)查詢。

?Controlled Text Generation

?可控文本生成是在傳統(tǒng)文本生成的基礎(chǔ)上，增加對(duì)生成文本的控制，如指定生成文本的關(guān)鍵詞、格式、風(fēng)格等，從而使生成的文本符合我們的預(yù)期，比如生成與某人相同風(fēng)格的文本，生成有固定內(nèi)容格式的報(bào)告，根據(jù)簡(jiǎn)單的故事線生成完整的小說等等?？煽匚谋旧捎袑?duì)預(yù)訓(xùn)練模型finetune、重新訓(xùn)練文本生成模型和重構(gòu)預(yù)訓(xùn)練模型輸出結(jié)果等方式。在大語言模型推出后，目前可以方便的通過Prompt提示詞，指導(dǎo)大語言模型進(jìn)行可控文本生成，針對(duì)不同的場(chǎng)景和文本生成目標(biāo)，設(shè)計(jì)不同格式和內(nèi)容的提示詞，生成滿足需求的文本。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
ATXMEGA128A3U-AU	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 64TQFP	ECAD模型下載ECAD模型	$8.03	查看
STM32F407VET6	1	STMicroelectronics	High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 512 Kbytes of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC	ECAD模型下載ECAD模型	$16.69	查看
ATXMEGA128A1-AU	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 100TQFP	ECAD模型下載ECAD模型	$8.12	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

ATXMEGA128A3U-AU

Microchip Technology Inc

IC MCU 8BIT 128KB FLASH 64TQFP

$8.03

查看

STM32F407VET6

STMicroelectronics

High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 512 Kbytes of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC

$16.69

查看

ATXMEGA128A1-AU

Microchip Technology Inc

IC MCU 8BIT 128KB FLASH 100TQFP

$8.12

查看

通過亞馬遜云科技大語言模型的智能搜索打造企業(yè)知識(shí)庫

推薦器件

相關(guān)推薦