Effective early termination techniques for text similarity join operator

Özalp, S. A.; Ulusoy, Özgür

Effective early termination techniques for text similarity join operator

Files

Effective early termination techniques for text similarity join operator.pdf (228.4 KB)

Date

2005

Authors

Özalp, S. A.

Ulusoy, Özgür

BUIR Usage Stats

3
views

14
downloads

Citation Stats

Abstract

Text similarity join operator joins two relations if their join attributes are textually similar to each other, and it has a variety of application domains including integration and querying of data from heterogeneous resources; cleansing of data; and mining of data. Although, the text similarity join operator is widely used, its processing is expensive due to the huge number of similarity computations performed. In this paper, we incorporate some short cut evaluation techniques from the Information Retrieval domain, namely Harman, quit, continue, and maximal similarity filter heuristics, into the previously proposed text similarity join algorithms to reduce the amount of similarity computations needed during the join operation. We experimentally evaluate the original and the heuristic based similarity join algorithms using real data obtained from the DBLP Bibliography database, and observe performance improvements with continue and maximal similarity filter heuristics. © Springer-Verlag Berlin Heidelberg 2005.

Source Title

Computer and Information Sciences - ISCIS 2005

Publisher

Springer, Berlin, Heidelberg

Keywords

Bibliographic retrieval systems, Computation theory, Computer operating procedures, Data mining, Data reduction, Information retrieval, Integration, Query languages, Application domains, Data querying, Filter heuristics, Text similarity, Text processing

Permalink

http://hdl.handle.net/11693/27360

Published Version (Please cite this version)

https://doi.org/10.1007/11569596_81
https://doi.org/10.1007/11569596

Collections

Scholarly Publications - Computer Engineering

Language

English

Type

Conference Paper

Full item page

Effective early termination techniques for text similarity join operator

Files

Date

Authors

Editor(s)

Advisor

Supervisor

Co-Advisor

Co-Supervisor

Instructor

BUIR Usage Stats

Citation Stats

Series

Abstract

Source Title

Publisher

Course

Other identifiers

Book Title

Keywords

Degree Discipline

Degree Level

Degree Name

Citation

Permalink

Published Version (Please cite this version)

Collections

Language

Type

Effective early termination techniques for text similarity join operator

Files

Date

Authors

Editor(s)

Advisor

Supervisor

Co-Advisor

Co-Supervisor

Instructor

BUIR Usage Stats

Citation Stats

Share

Series

Abstract

Source Title

Publisher

Course

Other identifiers

Book Title

Keywords

Degree Discipline

Degree Level

Degree Name

Citation

Permalink

Published Version (Please cite this version)

Collections

Language

Type