`
sillycat
  • 浏览: 2491854 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

TextExtract(1)Tika Basic

 
阅读更多
TextExtract(1)Tika Basic

1. Introduction
Tika supports a lot of different file formats, including audio, video, pictures and text files.
Tika bundle has tika-app for jar, GUI and CMD tool.

Command-line interface + GUI
Language identifier + Tika Facade + MIME Type
Parser

There are 3 files:
http://mirrors.sonic.net/apache/tika/tika-server-1.10.jar
http://apache.mirrors.hoobly.com/tika/tika-app-1.10.jar
http://ftp.wayne.edu/apache/tika/tika-1.10-src.zip
source code is managed by maven, I can directly build that.
> mvn clean install -DskipTests=true

Command or double click tikka-app can work.
> java -jar tika-app-1.10.jar --gui

And we can choose files and change the view to see different contents we get from the files.

2. Try The Packages in Java Codes
The simplest JAVA code to fetch the content of files.
package com.sillycat.resumeparse;

import java.io.File;
import java.io.IOException;

import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;

public class TestFunMain {

    static final String file = "/opt/data/resume/3-resume.pdf";

    public static void main(String[] args) {
        // Create a Tika instance with the default configuration
        Tika tika = new Tika();
        // Parse all given files and print out the extracted text content
        String text = null;
        try {
            text = tika.parseToString(new File(file));
        } catch (IOException | TikaException e) {
            e.printStackTrace();
        }
        System.out.print(text);
    }
}

Fetch the Meta data and Identify Language
package com.sillycat.resumeparse;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;

import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.apache.tika.language.LanguageIdentifier;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;

public class TestFunMain {

    static final String file = "/opt/data/resume/3-duffy.pdf";

    public static void main(String[] args) {
        Tika tika = new Tika();
        String text = null;
        Parser parser = new AutoDetectParser();
        BodyContentHandler handler = new BodyContentHandler();
        ParseContext context = new ParseContext();
        Metadata metadata = new Metadata();

        // fetch the content
        try {
            text = tika.parseToString(new File(file));
        } catch (IOException | TikaException e) {
            e.printStackTrace();
        }
        // System.out.print(text);

        // fetch the meta
        try {
            parser.parse(new FileInputStream(file), handler, metadata, context);
        } catch (IOException | SAXException | TikaException e) {
            e.printStackTrace();
        }
        // System.out.println(handler.toString());

        String[] metadataNames = metadata.names();

        for (String name : metadataNames) {
            // System.out.println(name + ": " + metadata.get(name));
        }

        // identify language
        try {
            parser.parse(new FileInputStream(file), handler, metadata,
                    new ParseContext());
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        } catch (SAXException e) {
            e.printStackTrace();
        } catch (TikaException e) {
            e.printStackTrace();
        }
        LanguageIdentifier object = new LanguageIdentifier(handler.toString());
        System.out.println("Language name :" + object.getLanguage());
    }
}

References:
https://tika.apache.org/
https://github.com/luohuazju/sillycat-resume-parse
http://itindex.net/detail/41933-apache-tika-%E9%80%9A%E7%94%A8

books
Tika in Action.pdf

http://m.yiibai.com/tika/tika_content_extraction.html
分享到:
评论

相关推荐

    tika-python绑定到 Apache Tika REST 服务

    tika-python 绑定到 Apache Tika REST 服务 Python binding to the Apache Tika REST services Apache Tika 库的 Python 端口,可使用 Tika REST 服务器使 Tika 可用。这使得 Apache Tika 可作为 Python 库使用,可...

    tika-core-1.22.jar_tika_

    Apache Tika本产品包括在以下位置开发的软件Apache软件基金会。版权所有1993-2010大学大气研究公司/ Unidata该软件包含源自UCAR / Unidata的NetCDF库的代码。Tika服务器组件使用CDDL许可的依赖项

    tika读取文件专用包

    tika读取文件所用jar包,包含各种文件类型所用jar

    tika 1.0最新版本

    tika最新版本,tika-app-1.0.jar,提取office和pdf文档内容

    tika提取文本内容

    tika 工程 简便获取文本的java工具

    tika+lucene完整jar包

    tika+lucene完整jar包:tika-app-1.20.jar、lucene-7.7.1

    tika-0.5 jar包

    下载Apache的tika项目时发现网上没有现成的tika的jar文件,只能自己编译一个了。可能大家也会遇到这个问题。所以将编译好的jar包传上来于大家分享。其中包含了tika-app-0.5.jar,tika-core-0.5.jar,tika-parsers-...

    tika.jar包

    可直接通过java -jar tika.jar运行该jar包 查看我们解析得到文本的结果

    apache tika jar包

    Apache Tika 利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。  功能包括:  侦测文档的类型,字符编码,语言,等其他现有文档的属性。  提取结构化的文字内容。...

    tika0.5基本jar包

    使用tika0.5提取内容的基本的jar包。

    apache中的tika包

    lucene's tika可以直接去网站下载噢。

    apache tika 1.13 源码及构建好的库(part 1 )

    Apache Tika 利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。 功能包括: 侦测文档的类型,字符编码,语言,等其他现有文档的属性。 提取结构化的文字内容。 该...

    tika jar包

    tika读取文件所用jar包,tika-core-1.5.jar和tika-parsers-1.5.jar

    Tika.in.Action.pdf

    Tika.in.Action.pdf

    Tika in Action

    tika in action for text extraction

    tika-app-1.16.jar

    tika-app-1.16,java文档内容提取工具jar包,可提取office文档内容

    tika-app-1.8

    最新tika1.8,可以帮助lucene的开发,提取文档的内容

    tika-app-1.7.jar

    tika-app-1.7.jar

    Tika1.0jar包和源码

    Tika1.0jar包和源码 Lucene从各种文件类型中提取文字信息的工具

    tika资源包

    使用apache tika可以很方便地将文档内容提取出来,方便做全文检索使用。

Global site tag (gtag.js) - Google Analytics