我们的数据连接器通过LlamaHub 🦙提供。LlamaHub是一个开源存储库,其中包含您可以轻松插入任何LlamaIndex应用程序的数据加载程序。
一些示例数据连接器:
本地文件目录(
SimpleDirectoryReader)。可以支持解析各种文件类型:.pdf,.jpg,.png,.docx等。Notion(
NotionPageReader)Google Docs(
GoogleDocsReader)Slack(
SlackReader)Discord(
DiscordReader)Apify Actors(
ApifyActor)。可以爬取网络,抓取网页,提取文本内容,下载文件,包括.pdf,.jpg,.png,.docx等。
每个数据加载程序都包含一个“使用”部分,显示如何使用该加载程序。使用每个加载程序的核心是一个download_loader函数,它将加载程序文件下载到您可以在应用程序中使用的模块中。
示例用法:
from llama_index import GPTVectorStoreIndex, download_loader
GoogleDocsReader = download_loader('GoogleDocsReader')
gdoc_ids = ['1wf-y2pd9C878Oh-FmLH7Q_BQkljdm6TQal-c1pUfrec']
loader = GoogleDocsReader()
documents = loader.load_data(document_ids=gdoc_ids)
index = GPTVectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine()
query_engine.query('Where did the author go to school?')
Examples
我们的数据连接器通过LlamaHub 🦙提供。LlamaHub是一个开源存储库,其中包含您可以轻松插入任何LlamaIndex应用程序的数据加载程序。一些示例数据连接器包括本地文件目录(SimpleDirectoryReader)、Notion(NotionPageReader)、Google Docs(GoogleDocsReader)、Slack(SlackReader)、Discord(DiscordReader)和Apify Actors(ApifyActor)。每个数据加载程序都包含一个“使用”部分,显示如何使用该加载程序。使用每个加载程序的核心是一个download_loader函数,它将加载程序文件下载到您可以在应用程序中使用的模块中。