我们的数据连接器通过LlamaHub 🦙提供。LlamaHub是一个开源存储库,其中包含您可以轻松插入任何LlamaIndex应用程序的数据加载程序。

一些示例数据连接器:

  • 本地文件目录(SimpleDirectoryReader)。可以支持解析各种文件类型:.pdf.jpg.png.docx等。

  • NotionNotionPageReader)

  • Google DocsGoogleDocsReader)

  • SlackSlackReader)

  • DiscordDiscordReader)

  • Apify ActorsApifyActor)。可以爬取网络,抓取网页,提取文本内容,下载文件,包括.pdf.jpg.png.docx等。

每个数据加载程序都包含一个“使用”部分,显示如何使用该加载程序。使用每个加载程序的核心是一个download_loader函数,它将加载程序文件下载到您可以在应用程序中使用的模块中。

示例用法:

from llama_index import GPTVectorStoreIndex, download_loader

GoogleDocsReader = download_loader('GoogleDocsReader')

gdoc_ids = ['1wf-y2pd9C878Oh-FmLH7Q_BQkljdm6TQal-c1pUfrec']
loader = GoogleDocsReader()
documents = loader.load_data(document_ids=gdoc_ids)
index = GPTVectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine()
query_engine.query('Where did the author go to school?')

我们的数据连接器通过LlamaHub 🦙提供。LlamaHub是一个开源存储库,其中包含您可以轻松插入任何LlamaIndex应用程序的数据加载程序。一些示例数据连接器包括本地文件目录(SimpleDirectoryReader)、NotionNotionPageReader)、Google DocsGoogleDocsReader)、SlackSlackReader)、DiscordDiscordReader)和Apify ActorsApifyActor)。每个数据加载程序都包含一个“使用”部分,显示如何使用该加载程序。使用每个加载程序的核心是一个download_loader函数,它将加载程序文件下载到您可以在应用程序中使用的模块中。