background preloader

Searchtool

Facebook Twitter

LanguageAnalysis. This page describes some of the language-specific analysis components available in Solr. These components can be used to improve search results for specific languages. Please look at AnalyzersTokenizersTokenFilters for other analysis components you can use in combination with these components. NOTE: This page is mostly obsolete.

The Solr Example now contains configurations for various languages as fieldTypes (text_XX). This is synchronized with the support from Lucene. By language Arabic Solr provides support for the Light-10 stemming algorithm, and Lucene includes an example stopword list. This algorithm defines both character normalization and stemming, so these are split into two filters to provide more flexibility. ... Example set of Arabic stopwords (Be sure to switch your browser encoding to UTF-8) Armenian Solr3.1 Solr includes support for stemming Armenian via solr.SnowballPorterFilterFactory, and Lucene includes an example stopword list. ... Basque ... Brazilian Portuguese ... Bulgarian. Snowball - Download. Several tarballs of the snowball sources are available.

The C version of the libstemmer library. This contains all you need to include the snowball stemming algorithms into a C project of your own. If you download this, you don't need to use the snowball compiler, or worry about the internals of the stemmers in any way. The Java version of the libstemmer library. This contains all you need to include the snowball stemming algorithms into a Java project of your own. If you download this, you don't need to use the snowball compiler, or worry about the internals of the stemmers in any way.

Also, tarballs containing just the files related to each individual stemming algorithm described on this site are available from the page for each algorithm. We do not make binary (ie, compiled) distributions of snowball available - there are simply too many different platforms and architectures to support. Copernic. 翻译:Lucene Syntax (lucene查询语法详解)_雨恨云愁的空间. Lucene提供了丰富的API来组合定制你所需要的查询器,同时也可以利用Query Parser提供的强大的查询语法解析来构造你想要的查询器。 本文章详细的介绍了Lucene的查询语法。 通过Java语法分析器把一个查询字符串解析成 Lucene的查询器。 在你选择使用Query Parser前,请考虑以下事项: 如果你打算在程序中拼接查询语法串然后再利用Query Parser转换,那么强烈建议你利用相应的API来自己构造查询器。 也就是说,Query Parser是为手工输入高级查询设计的,而不是为程序拼接语法串而设计的。 在查询的目标中,如果字段全部是程序生成的文本,(例如补齐的日期字段等),最好使用Query Parser以便查询的时候也是一致的格式。 Terms 一个查询将分解为若干Term以及操作符,有两种Term,其一是单一Term,其二为短语。 Fields Lucene支持多字段数据,当你在查询的时候你可以指定一个字段查询,也可以使用默认的字段。 Term ModifiersLucene支持在Term中使用通配符来支持模糊查询。 Wildcard Searches Lucene支持单个或者多个字符的通配符查询,匹配单一字符使用符号“?” Fuzzy Searches Lucene支持基于编辑距离算法的模糊搜索,你可以使用波浪符号“~”放在查询词的后面,比如搜索一个与“roam”拼写相近的词可以使用:roam~ 该查询将寻找类似“foam”和“roams”等的词语。

Proximity Searches Lucene支持指定距离查询,你可以使用波浪号“~”加数字在查询词后。 Range Searches 范围查询允许你指定某个字段最大值和最小值,查询在二者之间的所有文档。 Boosting a Term Lucene支持给不同的查询词设置不同的权重。 Boolean operators 布尔操作符可以将多个Term合并为一个复杂的逻辑查询。 OR OR操作符默认的连接操作符。 AND AND操作符规定必须所有的Term都出现才能满足查询条件,这跟逻辑符号&&意思相似。 ++操作符规定在其后的Term必须出现在文档中,也就是查询词中的MUST属性。 NOT NOT操作符规定查询的文档必须不包含NOT之后的Term,这跟逻辑符号中的! Downloads - exewrap - Windows native executable java application wrapper.

Format Change. JODConverter 3.0 requires: We recommend that you use the latest OpenOffice.org or LibreOffice version. The command line tool provides a good way to check that everything is working, i.e. that you have the right OOo/LibO version installed etc. To convert a document do e.g.: java -jar lib/jodconverter-core-3.0-beta-4.jar test.odt test.pdf Note: if all you want is a command line tool, you may also have a look at this Python script. Important: This tool is not intended to support multiple concurrent executions, e.g. being invoked at each web request from a PHP or Ruby app.

Here's a basic example of Java code that converts a single document: OfficeManager officeManager = new DefaultOfficeManagerConfiguration().buildOfficeManager(); officeManager.start(); OfficeDocumentConverter converter = new OfficeDocumentConverter(officeManager); converter.convert(new File("test.odt"), new File("test.pdf"); officeManager.stop(); Here's another example showing a few configuration options: OCR engine for japanese language. Since Sep 8, 2008 / Last update: May 3, 2013 NHocr is a command line OCR (Optical Character Recognition) program for Japanese language, etc.

It has been designed to recognize machine-printed Japanese characters and some ASCII characters/symbols in an image. NHocr is probably the first Open Source Japanese OCR software (offline, machine-printed), except some experimental, partial codes open to academic communities. You can also use NHocr through WeOCR service at: The program is highly experimental, and the character recognition performance is limited. The character feature used in NHocr is based on Peripheral Local Moment (P-LM) proposed by Hori et al. in late 90's. NHocr is originally a product of the author's weekend programming. The current NHocr can handle text block image only, since it has not been equipped with a page layout analysis engine.

Solaris SPARC/x86 and Linux are officially supported. NHocr depends on O2-tools package available at: Free Online OCR. 【Tesseract-OCR】在VS2010环境下调用API方法---简单快速之总结 - 图像处理专栏. 做字符识别,不能不了解google的Tesseract-OCR,但是如何在自己的工程中使用其API倒是语焉不详,官网上倒是很详尽地也很啰嗦地介绍如何重新编译生成适合自己平台的lib和dll,经过近些天的不断搜索和尝试,可算是找了些门路。 尤其感谢以下作者的分享带给我的帮助和启发: cxf7394373的 字符识别Google开源Tesseract-ocr的DLL调用方法 夏梦c的Tesseract3.02简单环境搭建 tsinson的 tesseract下的简单应用 下面开始介绍我的使用经验: 可以从这里 下载 然后进行安装,如此可以方便地省去好多配置细节:如修改环境变量【如果不采用环境变量方式,则需要对于每个工程目录建立tessdata文件夹,并且里面放置所需要的chi_sim.traineddata等语言包】,也不再需要下载tesseract-3.02.02-win32-lib-include-dirs.zip, 更方便以后训练出自己的traineddata 文件 需要注意的是,安装目录下lib里面 libtesseract302d.dll 是针对VS2008的,需要用一个vs2010编译出的替换下来才可以在VS2010下正常使用。 另外还需要将 liblept168.dll 和 liblept168d.dll两个文件一并下载放到lib里面。 在环境变量Path中增加指向安装目录下lib的路径,比如C:\Program Files\Tesseract-OCR\lib ,以便exe运行时能找到所需要的dll 在自己的工程属性中VC++目录下增加包含目录和库目录,以便VS2010查找文件。 包含目录 下新增:C:\Program Files\Tesseract-OCR\include\tesseract 库目录 下新增: C:\Program Files\Tesseract-OCR\lib 这里可以参照cxf7394373的 字符识别Google开源Tesseract-ocr的DLL调用方法 使用其API的一种模式大致是这样:先包含头文件,连接库;然后再定义一个api类,配置好参数之后提取识别结果.

5个最好的免费OCR软件. 坦白说,真希望我在学校的时候就知道这些使用免费的 OCR 软件的方式。 当然,那时候我们没有带有摄像头的手机或者是廉价的数码相机,但是应该可以节省很多抄笔记的时间了! 啊,现代科技多么美好! 拿一张扫描图片(或者使用手机摄像头/数码相机拍摄一张照片)进行排版 – OCR 软件从图片中提取所有的信息到可以编辑的文本格式。 光学字符识别 (OCR) 是将扫描的打印/手写图片文件转换为可以机器识别的可编辑文本格式。 OCR 软件通过分析文档然后与存储在数据库中的字体进行比较,以及/或者标记出字体的典型特征来工作。 有些 OCR 软件也通过拼写检查来“猜测”不能识别的单词。 也许你之前看过我们的如何从图片中提取文本(OCR)这篇文章中使用的 JOCR,是一款免费的 OCR 软件工具。 我们将要介绍5款免费的 OCR 软件,在这之前先了解一下已经安装在系统中的最容易忽视的两款。 OCR 使用微软 OneNote 2007 作为偶尔使用的基本的 OCR 工作,微软 OneNote 的光学字符识别功能可以节省不少时间。 将一个扫描或者保存的图片拖拽到 OneNote。 OneNote 非常的建议。 OCR 使用微软 Office Document Imaging 另一个微软 Office 家族中不常用的工具。 使用 document imaging 工具进行 OCR 识别很悠闲,因为它只接受 TIFF (或者 MDI) 格式。 在程序中打开文件 Microsoft Office Document Imaging – 文件 – 打开。 再次,MODI 处理印刷文本很不错,不过我的手写文本却遇到了“OCR 已执行但不能识别提交的文本”。 那么,现在让我们离开微软家族,看看3款免费的称自己为 OCR 的软件… SimpleOCR 我使用微软的工具进行手写体识别时遇到的困难,可以在 SimpleOCR 找到可能的解决方案。 这款软件可以设置直接从扫描仪读取或者通过添加页面(jpg、tiff、bmp 格式)。 SimpleOCR 对于通常的文本工作良好,但处理多个列的布局时会有所衰落。 SimpleOCR (v3.1) 下载文件为 9MB,兼容 Windows 系统。

TopOCR 我正在说的才刚刚开始呢! 左侧窗口中从相机或扫描仪获取的图片转换为右侧窗口里面的文本格式。 这款软件支持 JPEG、TIFF、GIF 和 BMP格式。 Gttext - OCR Software to copy image text or build a Text Ground Truth of a complex color image. In the research of algorithms that extract text from color images a set of files with the exact location of the text is needed to avoid inefficient and tedious visual checks of the results. This Ground Truth information saves enormous time and gives accuracy. For this the gttext project helps to create fast and quality Ground Truthed data-sets from color text images. It performs fast OCR text recognition and copies image text to clipboard. Loads from screen snapshots, image files and scans documents.

The basic level of work is at a pixel detection, making possible to group regions to form the glyph or even use a direct editing to get the choice. Extracting text from complex color images can be done immediately just by selecting the region of the open, scanned or pasted image document. This computer engineering project is the result of a degree requirement and it is offered to the open source community. Enjoy. New Release GT Text 1.4.5 Thank you to all that donated! Version 1.1.2 Version 1.2.1. Dejima-fonts - Japanese fonts derived from Tsukiji Mincho. 無償で商用利用できて品質の高い日本語フォント一覧 - Liner Note. 要約:追加の使用料や許諾を求められることなく使える日本語フォントのうち、そこそこ使えるクオリティのフォントを選んでまとめてみました 手元にあるフォントには見本画像を付けてみました 日本語フォントに関する記事はいろいろあって、断片的・網羅的といろいろ出ているんですが、1.

無償で商用利用可能 2.そこそこ品質が高いという2点でフィルタをかけた情報をまとめてみることにしました。 商用利用は別腹が多い まず、個人で使う場合は無償・商用限らずフォントを使った画像を出しても問題ないよというケースが殆どなんだけど(当たり前と言えば当たり前)、これが商用とかになると条件が違ってきます。 例えば、 ダイナコムウェアのフォント なんかはかなりの数のフォントが1-2万円で変えることもあって、年賀状なんかの個人利用にも人気があるとも思うんですが、これが「 商用利用となると別腹だよ 」という話で、表の値札だけを見て買うと却って高く付いちゃったりするんですね。 これは商用フォントの話だけでなく、いわゆるフリーフォント(無償で使用できるフォント)も同じで、「個人利用に限り~」という但し書きがあるところは結構多い。 で、わざわざお金払って許諾取るくらいなら、無償で許諾不要で利用できるほうがラクチンで経済的だよねということで、そうしたフォントをまとめてみました。 一応、注意して欲しいのが各社によって「商用利用」の定義が違うことです。 商用フォント Adobe 小塚ファミリー 解説 Adobe AcrobatやillustratorなどのCreative Suiteプロダクトには 小塚ゴシック ・ 小塚明朝 という各3ウェイトのOpenTypeフォントが付属しています(最近はAdobe Readerにも入っているのかな?) ライセンス WALK SLOW, AGAINST THE FLOW. お客様において作成するもの(印刷出版物や電化製品など)に、アドビから提供されているフォントを使用して作成し、それを営利目的にて販売、閲覧等を行う場合、フォントが再利用できないような固定された形での利用(印刷等も含む)であれば使用可能であり、個別に弊社から使用許諾を得る必要はありません。 これは上記さざなみフォントの「フォントとしての再使用を目的としない用途」と似たような物でしょう。 AXIS フォント モリサワ フォントワークス LETS オマケ. Lucene增量索引的搜索结果重复的问题 - 东升红日辉万里,明泽润物彻古今 - ITeye技术网站. Lucene的增量索引没有那么智能,虽然根据文档所言,把下面的第三个参数设为false就是增量索引(true to create the index or overwrite the existing one; false to append to the existing index,注意这个append)。

但是我发现,它与true的区别,仅仅在于不去删掉以前所有的索引文件而已,他并不能智能的分析到当前要被索引的文件是否已经被索引过,因此对先前文档作了修改,要重建索引的话,必须删除先前的这个文档所对应的索引 new IndexWriter(indexDir, new StandardAnalyzer(), false, new IndexWriter.MaxFieldLength(10000)); new IndexWriter(indexDir, new StandardAnalyzer(), false, new IndexWriter.MaxFieldLength(10000)); 建立索引的关键步骤就是对IndexWriter添加Document,我是对文本文件进行分析的 File f = new File("text.txt"); Document doc = new Document(); doc.add(new Field("content", new FileReader(f))); doc.add(new Field("title", "要被索引的字符串", Field.Store.YES, Field.Index.ANALYZED)); writer.addDocument(doc); File f = new File("text.txt"); Document doc = new Document(); doc.add(new Field("content", new FileReader(f))); // 由于文件内容比较大,没有保存,如果是要做高亮搜索词的话,需要保存,分析,并且指定词向量参数Field.TermVector doc.add(new Field("title", "要被索引的字符串", Field.Store.YES, Field.Index.ANALYZED)); writer.addDocument(doc); 删除doc的代码. Dw-hacks. 最近の話題 SimplePageExtractorのプラグイン名表示不具合を修正しました。

SimpleCommentatorを作成しました。 DocuWorks用プラグイン MagicMask v1.0 これは、ページ内の不要部分を覆い隠すためのツールです。 DocuWorksの質問でよくあるのが、スキャン画像の不要な部分は消したいがどうすれば良いか、というものです。 SimplePageExtractor v1.2.1 これは、印を付けたページのみを取り出すプラグインです。 簡易組替え これは、複数の文書をばらしてページごとに束ね直すプラグインです。 AnnotaionLocator 文書内の矩形アノーテーションの位置と大きさを「アノーテーション情報.txt」ファイルに書き出します。 SimpleInsert DADFをつかってまとまった量の紙文書をDW化する場合、重送でページが飛んでしまったりすることがありますね。 SimpleSplitter 一つ一つはページ数が少ないけれど、数がたくさんある紙文書をスキャンしてDW化する場合はどうしています。 枠サイズ設定 文書内の矩形アノテーションを指定のサイズに統一するプラグインです。 アプリケーションプログラム SimpleCommentator あらかじめメモしておいたコメントをDocuWorksプリンタに印刷してできるDW文書のアノテーションとして貼り付けるツールです。 Bmp2Dw BMPファイルをDocuWorks文書に変換するプログラムで、BMPファイルをアノーテーションとして生成するところが特徴です。 他言語インターフェイス MyXdwApi: xdwapiをCOMに 以前の試作版から、まったく新たに作成しなおしたCOMインターフェイスです。 Javaからxdwapiを使う 富士ゼロックス株式会社から、DocuWorks文書をプログラムで処理するためにDocuWorks(TM) Development Tool Kitが提供されています。 その他 SusieDwPlugin サムネイル表示を目的としたDocuWorks文書用のSusieプラグインです。 ご意見やお問い合わせについて 都合により作者の直接対応の窓口はございません。 DW-Users ML. Welcome to Lucene Tutorial.com - Lucene Tutorial.com.

株式会社プリファードインフラストラクチャー. Crawler4j - Open Source Web Crawler for Java. Excel Icon | SoftDimension Iconset | Benjigarner. Sponsored links Follow us excel Search tag Good (121) Bad (0) Remove tag office Search tag Good (95) Bad (0) Remove tag microsoft Search tag Good (72) Bad (0) Remove tag pdf Search tag Good (7) Bad (0) Report abuse wold Search tag Good (5) Bad (1) Report abuse report Search tag Good (3) Bad (0) Report abuse start Search tag Good (2) Bad (0) Report abuse acces Search tag Good (3) Bad (1) Report abuse ppt Search tag Good (1) Bad (0) Report abuse project Search tag Good (1) Bad (1) Report abuse Icon Rating Stats Views: 179884Downloads: 33817Posted: Apr 26, 2008 Browse this Iconset Advertisement Artist:BenjigarnerIconset:SoftDimension Icons (75 icons)License:CC Attribution-Noncommercial-No Derivate 3.0Commercial usage: Not allowedThe products or characters depicted in these icons are © by Respective Copyright OwnersDownload PNG | 256pxDownload ICO Download other sizes of this icon: Similar icons with these tags: excelofficemicrosoftpdfwoldreportstartaccespptproject.

Java Gui Builder. Java GUI Tutorial 19 - JTable. Using Swing Components: Examples (The Java™ Tutorials > Creating a GUI with Swing > Using Swing Components) The table that follows lists every example in the Using Swing Components lesson, with links to required files and to where each example is discussed. The first column of the table has links to JNLP files that let you run the examples using Java™ Web Start. NOTE: Release 7.0 is required to run all applets and Java Web Start examples. Most examples will run on an earlier release but you must compile and run them locally. To run an example using Java Web Start, click the [Launch] link in the first column of the table. The first time you run an example, there will be a delay while Java Web Start downloads the JAR file containing the class files for this lesson's examples. Compiling and Running the Examples Locally The second column in the table below has links to zip files for each demo that you can open and run in the NetBeans IDE.

If you download an individual example, take care to have all the necessary files in the proper hierarchy when you compile and run it. Here is a typical setup: How to Use Trees (The Java™ Tutorials > Creating a GUI With JFC/Swing > Using Swing Components) With the JTree class, you can display hierarchical data. A JTree object does not actually contain your data; it simply provides a view of the data.

Like any non-trivial Swing component, the tree gets data by querying its data model. Here is a picture of a tree: As the preceding figure shows, JTree displays its data vertically. Each row displayed by the tree contains exactly one item of data, which is called a node. Every tree has a root node from which all nodes descend. Branch nodes can have any number of children. A specific node in a tree can be identified either by a TreePath, an object that encapsulates a node and all of its ancestors, or by its display row, where each row in the display area displays one node.

An expanded node is a non-leaf node that will display its children when all its ancestors are expanded.A collapsed node is one which hides them.A hidden node is one which is under a collapsed ancestor. The rest of this section discusses the following topics: Creating a Tree. Lucene 建立简单搜索引擎实例 - java05的专栏. 建立搜索引擎四步: 抓取数据---》解析数据----》创建索引-----》执行搜索 第一部分:体会 今天做了一个简单示例,用的版本是lucune 2.4.1,跟教科书上的有些不同,但教科书上的示例都能正常执行。 第二部分:遇到的问题 刚把程序写出来的时候,出现了搜索不到结果的情况,后来发现是在添加Field的时候没有把搜索的字段设置成 Field.Index.ANALYZED, 如果你在搜索器中设定的搜索字段是 text,那么在创建索引的时候应该把这个字段设置成可以被索引。

也就是 field = new Field("text",text,Field.Store.YES,Field.Index.ANALYZED); 而不是 field = new Field("text",text,Field.Store.YES,Field.Index.NO); 第三部分:新老版本变更的问题 以下是lucune2.4.1版本与老版本的不同之处。 创建索引时的不同 老版本 IndexWriter writer = new IndexWriter(indexPath,new StandardAnalyzer(),true); 新版本 IndexWriter writer = new IndexWriter(indexPath,new StandardAnalyzer(),true,IndexWriter.MaxFieldLength.UNLIMITED); 在执行索引时的不同,注意看下 search和searchNew两个方法的不同就可以了 第四部分:成果 LuceneIndexer.java LuceneSearcher.java 另有两个辅助类 FileList和FileText. An Introduction to Java GUI Programming. Lucene / Solr 开发经验(二)_Goldhwi.狼. Lucene索引中的编码问题,好郁闷 - 巴士飞扬-技术BLOG.

Sen

Apache Tika - Apache Tika. 用Lucene构建搜索引擎 - Lucene教程. Lucene搜索结果分页显示 google、baidu式的分页 我在项目中的应用(二) - wengyupeng的专栏. Lucene教程 - Lucene安装、配置、实例. 利用 Lucene 实现高级搜索功能. Analyzer (Lucene 3.6.0 API) 全文検索エンジン「Lucene.Net」を使う. Tutorial: Using Apache Tomcat 6 (6.0.28) with Eclipse. MySQL Field Types. Import CSV file directly into MySQL. HowToUse - cmecab-java - 使用方法 - MeCabのJNIバインディング. Ipadicのライセンスの件 - mir the developer. スクリプト言語のバインディング. MeCab: Yet Another Part-of-Speech and Morphological Analyzer. Msg2txt.

Basic PDFBox Tutorial - PrintMyFolders. Pdfbox&iText生成PDF文件格式及读取PDF文件内容的小示例--完美支持中文版 - Java综合 - Java. Apache Download Mirrors. Overview (Apache PDFBox 1.6.0 API) Msg2txt. Poi 操作excel 2007 示例 - 付丰瑞@CSDN. The New Halloween Document.