Tarayıcıdan Word'e dönüştürme programı. Tarama ve metin tanıma

OCR yazılımı, fotoğrafı çekilen veya taranan belgeleri doğrudan cümlelere dönüştürmenize olanak tanır.

Gerçek şu ki, görüntüdeki metin bir raster, bir dizi nokta biçiminde sunuluyor.

Bahsedilen yazılım, bir dizi noktayı düzenleme ve kaydetmeye uygun tam teşekküllü metne dönüştürür.

Mektup tanıma, basılı veya el yazısı kitap ve belgelerin dijitalleştirilmesi sürecini optimize etmek için tasarlanmıştır.

Bu sayısallaştırma yöntemi, bir görüntüden manuel yazma hızından çok daha hızlıdır. Kütüphanelerin ve arşivlerin dijitalleştirilmesinde yaygın olarak kullanılır.

ABBYY FineReader 10

FineReader, resimlerdeki metni tanıyan tüm programlar arasında tartışmasız liderdir. Özellikle Kiril alfabesini daha net işleyen bir yazılım yok.

Genel olarak FineReader'ın 179 dili vardır ve metinler son derece başarılı bir şekilde tanınır.

Kullanıcıları hayal kırıklığına uğratabilecek tek şey programın ücretli olmasıdır.

Yalnızca 15 günlük deneme sürümü ücretsiz olarak mevcuttur. Bu süre zarfında 50 sayfanın taranmasına izin verilmektedir.

Kaynak tamamen önemsizdir. İster bir fotoğraf, ister bir sayfanın taranması, ister harfler içeren herhangi bir resim.

Avantajları:

doğru tanıma;
çok sayıda okuma dili;
kaynak görüntünün kalitesine tolerans.

Kusur:

15 günlük deneme sürümü.

OCR Çivi Formu

Resimlerden metin bilgilerini okumak için ücretsiz program. Tanıma doğruluğu, incelenmekte olan önceki programınkinden çok daha düşüktür.

Ancak ücretsiz bir yardımcı program için işlevsellik hala mükemmel.

Program tanınan metnin yazı tipini ve boyutunu okuyabilir ve kaydedebilir. Veritabanı, kullanılan basılı yazı tiplerinin çoğunu içerir.

Daktilodan çıkan metnin tanınması bile desteklenmektedir.

Doğruluğu sağlamak için, taranan belgelerdeki kelime dağarcığını yenileyen özel sözlükler tanıma sürecine bağlanır.

Avantajları:

ücretsiz dağıtım;
metnin doğruluğunu kontrol etmek için sözlüklerin kullanılması;
düşük kaliteli fotokopilerden metin tarama.

Kusurlar:

nispeten düşük doğruluk;
az sayıda dil desteklenmektedir.

WinScan2PDF

Bu tam teşekküllü bir program bile değil, bir yardımcı programdır. Hiçbir kurulum gerekmez ve yürütülebilir dosya yalnızca birkaç kilobayt ağırlığındadır.

Ortaya çıkan belgeler yalnızca PDF formatında kaydedilmesine rağmen tanıma süreci son derece hızlıdır.

Aslında tüm süreç üç düğmeye basılarak gerçekleştirilir: kaynağın, hedefin seçilmesi ve aslında programın başlatılması.

Yardımcı program birçok dosyanın hızlı toplu işlenmesi için tasarlanmıştır. Kullanıcıların rahatlığı için geniş bir arayüz dil paketi sağlanmıştır.

Avantajları:

taşınabilirlik;
hızlı çalışma;
kullanım kolaylığı.

Kusurlar:

en küçük beden;
tek çıktı dosyası biçimi.

BasitOCR

Resimlerdeki metinleri tanımak için mükemmel bir küçük program. Hatta el yazmalarının okunmasını bile destekler.

Sorun şu ki, Rusça ne arayüz dil paketinde ne de tanınma için desteklenen diller listesinde yer almıyor.

Ancak İngilizce, Danca veya Fransızca taramanız gerekiyorsa daha iyi bir ücretsiz seçenek bulamazsınız.

Program, kapsamı dahilinde doğru yazı tipi kod çözme, gürültü giderme ve grafik görüntü çıkarma sağlar.

Ayrıca program arayüzünün WordPad ile neredeyse aynı olan yerleşik bir arayüze sahip olması programın kullanılabilirliğini önemli ölçüde artırıyor.

Avantajları:

doğru metin tanıma;
kullanışlı metin editörü;
görüntüdeki gürültünün giderilmesi.

Kusurlar:

Ayrıca çok sayfalı tanıma işlevi de sağlanmaktadır.

Freemore OCR ücretsiz olarak dağıtılmaktadır, ancak arayüz yalnızca İngilizcedir.

Ancak bu durum kullanım kolaylığını hiçbir şekilde etkilemez çünkü kontroller sezgisel bir şekilde düzenlenmiştir.

Avantajları:

ücretsiz dağıtım;
birden fazla tarayıcıyla çalışma yeteneği;
tanıma doğruluğu iyidir.

Kusurlar

Arayüzde Rusça dilinin olmaması;
Tanınma için Rusça dil paketini indirme ihtiyacı.

Metin tanıma programı. Bir resimdeki metin nasıl tanınır

Tarama ve metin tanıma için 5 ücretsiz program

Muhtemelen herkes, bir belgenin, örneğin bir kitabın bir sayfasının taranmasının basılı metne dönüştürülmesi gerektiği duruma aşinadır. Bunun için özel programlar mevcut ancak bunların çoğunu çok az kişi biliyor. Muhtemelen herkes yalnızca ABBYY FineReader'ı biliyor. Aslında FineReader rekabetin ötesindedir. Bu, Rusça'da tarama ve metin tanıma için en iyi programdır, ancak yalnızca ücretli sürümlerde mevcuttur ve çok pahalıdır. Yılda bir veya iki kitabı işlemeyi planlıyorlarsa, kaç kişi en bütçeli lisans için neredeyse 7.000 ruble ödemeye hazır?

Pahalı bir ticari ürünün satın alınmasının haksız olduğunu düşünüyorsanız, neden bazıları ücretsiz olan analogları kullanmıyorsunuz? Evet, işlevler açısından o kadar zengin değiller, ancak çoğu kişinin yalnızca FineReader'ın halledebileceğine inandığı birçok görevle oldukça başarılı bir şekilde başa çıkıyorlar. Öyleyse mevcut alternatiflerden bazılarına bir göz atalım. Aynı zamanda genel kabul görmüş standarttan ne kadar farklı olduklarını da görelim.

Diğer programları ABBYY FineReader ile karşılaştırmak için neden bu kadar iyi olduğunu öğrenelim. İşte ana işlevlerinin bir listesi:

Fotoğraflar, taramalar ve kağıt belgelerle çalışma.
PDF dosyalarının içeriğini düzenleme - metin, ayrı bloklar, etkileşimli öğeler vb.
PDF'yi Microsoft Word formatına veya tam tersi şekilde dönüştürün. Herhangi bir metin belgesinden pdf dosyaları oluşturun.
Belge içeriğinin 35 dilde karşılaştırılması, örneğin taranmış kağıt ve elektronik (tüm basımlarda değil).
Taranan metinlerin, tabloların, matematiksel formüllerin tanınması ve dönüştürülmesi.
Rutin işlemlerin otomatik olarak yürütülmesi (tüm sürümlerde geçerli değildir).
192 ulusal alfabeyi destekler.
Tanınan metnin Rusça, Ukraynaca ve diğer 46 dilde yazım denetimi.
PDF hariç 10 grafik ve 10 metin giriş dosyası formatını destekler.
Dosyaları grafik ve metin formatlarının yanı sıra EPUB ve FB2 elektronik kitap biçiminde kaydetme.
Barkodları okumak.
Rusça ve Ukraynaca dahil 20 dilde arayüz.
Mevcut tarayıcı modellerinin çoğunu destekler.

Programın yetenekleri mükemmeldir, ancak belgeleri endüstriyel ölçekte işlemeyen ev kullanıcıları için bunlar gereksizdir. Ancak yalnızca birkaç sayfayı tanıması gerekenler için ABBYY, FineReaderOnline web hizmeti aracılığıyla ücretsiz hizmetler sunmaktadır. Kayıt olduktan sonra, taranmış veya fotoğraflanmış 10 sayfalık metni ve ardından ayda 5 sayfa işleyebilirsiniz. Daha fazlası - ek ücret karşılığında.

Bir bilgisayara kurulum için en ucuz FineReader lisansının maliyeti 6.990 rubledir (Standart sürüm).

Küçük ve son derece basit bir ücretsiz yardımcı program elbette canavarla rekabet edemez, ancak beklendiği gibi ana görevi - taranan metni tanımak - çözer. Üstelik bunun için bir PC'ye (taşınabilir) kurulum bile gerektirmez. Ve sadece üç düğmeyle kontrol ediliyor.

WinScan2PDF kullanarak metni tanımak için, "Kaynak seç"e tıklayın ve bağlı tarayıcıyı belirtin (program ne yazık ki hazır dosyalarla çalışmaz). Belgenizi tarayıcıya yerleştirin ve Tara'yı tıklayın. İşlemi iptal etmek istiyorsanız İptal'e tıklayın. Tüm talimatlar bu kadar.

Yardımcı program Rusça dahil 23 dili destekler ve çok sayfalı dosyalarla çalışır. Bitmiş sonuç pdf formatında kaydedilir, belgenin taranması ise jpg formatında kaydedilir.

Web hizmeti Free-OCR.com

Free-OCR.com (OCR - Optik karakter tanıma), grafik görüntü formatında (jpg, gif, tiff, bmp) veya pdf olarak kaydedilen taranmış veya fotoğraflanmış metinleri tanımak için ücretsiz bir İnternet hizmetidir. Rusça ve Ukraynaca da dahil olmak üzere 29 dili destekler ve kaynak metin bunları içeriyorsa kullanıcı birini değil birkaçını seçebilir.

Ücretsiz OCR kayıt gerektirmez ve yüklenen belge sayısında herhangi bir kısıtlama yoktur. Yalnızca dosya boyutu sınırlıdır - 6 Mb'a kadar. Hizmet, çok sayfalı belgeleri işlemez; daha doğrusu, ilk sayfa dışındaki her şeyi yok sayar.

Taranan metin tanıma hızı oldukça yüksektir. Rusça bir kitabın bir parçasını içeren bir A4 sayfası yaklaşık 5 saniyede işlendi, ancak kalite tatmin edici değildi. Çocuk kitaplarındaki gibi büyük yazı tiplerini %100, orta ve küçük yazı tiplerini ise yaklaşık %80 oranında tanır. İngilizce belgelerde işler biraz daha iyi - küçük ve düşük kontrastlı yazı tipi yaklaşık% 95 oranında doğru tanındı.

Ücretsiz Çevrimiçi OCR web hizmeti

- öncekine çok benzeyen, ancak genişletilmiş işlevselliğe sahip başka bir ücretsiz web hizmeti. O:

106 dili destekler.
Birden çok dilde olanlar da dahil olmak üzere çok sayfalı belgeleri işler.
Birçok türde tarama ve fotoğraf belgelerindeki metinleri tanır. 10 grafik görüntü formatının yanı sıra pdf, djvu, doxc, odt belgelerini, zip arşivlerini ve sıkıştırılmış Unix dosyalarını işler.
Çıktı dosyalarını 3 formattan birinde kaydeder: txt, doc ve pdf.
Matematiksel denklemlerin tanınmasını destekler.
Görüntüyü her iki yönde 90-180° döndürmenize olanak sağlar.
Bir sayfadaki birden çok sütundaki metni doğru şekilde tanır.
Seçilen bir parçayı tanıyabilir.
İşlemden sonra dosyayı panoya kopyalamayı, bilgisayarınıza indirmeyi, Google Dokümanlar'a yüklemeyi veya İnternette yayınlamayı teklif eder. Ayrıca Google Translate veya Bing Translator'ı kullanarak metni anında başka bir dile çevirebilirsiniz.

Ücretsiz Çevrimiçi OCR'ın düşük çözünürlüklü ve düşük kontrastlı görüntüleri oldukça iyi okuması nedeniyle kredi vermeliyiz. Kendisine gönderilen tüm Rusça metinlerin tanınmasının sonucu %100 veya buna yakındı.

Ücretsiz Çevrimiçi OCR, bize göre FineReader'ın en iyi alternatiflerinden biridir, ancak yalnızca 20 sayfayı ücretsiz olarak işler (gerçi hangi dönem için olduğu belirtilmese de). Hizmetin daha fazla kullanılmasının maliyeti sayfa başına 0,5 ABD Dolarıdır.

Microsoft OneNote

Not alma programı Microsoft OneNote, çok eski ve en son sürüm 17 hariç, OCR işlevini de içerir. Özel uygulamalardaki kadar gelişmiş değildir ancak yine de başka seçeneğin olmadığı durumlarda kullanıma uygundur.

OneNote'u kullanarak bir görüntüdeki metni tanımak için, resmi dosyaya ekleyin (“Resim” - “Ekle”), üzerine sağ tıklayın ve “Resimden metni kopyala”yı seçin.

Bundan sonra kopyalanan metni notun herhangi bir yerine yapıştırın.

Varsayılan olarak tanıma dili İngilizce olarak ayarlanmıştır. Rusçaya veya başka bir dile ihtiyacınız varsa ayarı manuel olarak değiştirin.

Microsoft OneNote'taki Rusça metin tanımanın kalitesi arzulanan çok şey bırakıyor, bu nedenle FineReader'ın tam bir alternatifi olarak adlandırılamaz. Ve içinde çok sayfalı büyük belgeleri işlemek çok sakıncalıdır.

BasitOCR

Eski ücretsiz program SimpleOCR, elektronik görüntülerden ve taramalardan metinleri tanımak için de çok değerli bir araçtır, ancak ne yazık ki Rus dilini desteklememektedir. Ancak el yazısı kelimeleri okumak için benzersiz bir işlevin yanı sıra, bitmiş sonucu kaydetmeden önce hataları düzeltmenize olanak tanıyan bir düzenleyiciye sahiptir.

Diğer SimpleOCR özellikleri:

Sözlüğü manuel olarak güncelleme özelliğine sahip yazım denetimi.
Belgeleri düşük çözünürlükte ve işaretlerle okumak (“gürültüyü” temizleme seçeneği vardır).
Mümkün olan en yakın yazı tipi seçimi ve yazı stillerinin aktarımı (kalın, italik). İstenirse fonksiyon devre dışı bırakılabilir.
Birkaç sayfanın veya ayrı bir parçanın eşzamanlı işlenmesi.
Manuel düzenleme için bitmiş metindeki olası hataların vurgulanması.
Tarayıcıların birçok modifikasyonunu destekler.
Elektronik belgelerin giriş formatları: tif, jpg, bmp, ink ve taramalar.
Bitmiş metni txt ve doc formatlarında kaydetme.

Hem basılı metinlerin hem de yazma nüshaların tanınma kalitesi oldukça yüksektir.

Program, sınırlı dil desteği olmasa bile evrensel olarak adlandırılabilir. En son sürüm yalnızca İngilizce, Fransızca ve Danca'yı desteklemektedir; muhtemelen başkalarını ekleme planı da yoktur. Arayüz tamamen İngilizcedir ancak anlaşılması kolaydır. Ek olarak, ana pencerede SimpleOCR ile çalışmaya ilişkin bir eğitim videosu başlatan bir "Demo" düğmesi bulunmaktadır.

Belçikalı geliştirme şirketi I.R.I.S'in programı, Rus ABBYY FineReader'ın gerçek bir rakibi. Adobe, HP ve Canon tarafından kullanılan özel OCR motorunu temel alan güçlü, hızlı ve platformlar arası, okunması en zor metinleri bile mükemmel şekilde tanır. Rusça ve Ukraynaca dahil 137 dili destekler.

Readiris'in özellikleri ve işlevleri:

Büyük hacimler için tasarlanmış bu sınıftaki uygulamalar arasında en yüksek dosya işleme hızı.
Kaynak metnin formatının (fontlar, boyut, yazı stili) korunması.
Tek ve toplu dosya işleme, çok sayfalı belgeler için destek.
Matematiksel denklemlerin, özel karakterlerin ve barkodların tanınması.
Metnin “gürültüden” temizlenmesi - çizgiler, lekeler vb.
Çeşitli bulut hizmetleriyle entegrasyon - Google Dokümanlar, Evernote, Dropbox, SharePoint ve diğerleri.
Tüm modern tarayıcı modellerini destekler.
Giriş veri formatları: grafik görüntülerin kaydedildiği pdf, djvu, jpg, png ve diğerleri ile doğrudan tarayıcıdan alınanlar.
Çıktı formatları: doc, docx, xls, xlsx, txt, rtf, html, csv, pdf. Djvu'ya dönüştürme desteklenmektedir.

Programın arayüzü Rusçadır, kullanımı sezgiseldir. Kullanıcılara FineReader gibi pdf dosyalarının içeriğini düzenleme yeteneği sağlamaz, ancak bize göre ana görev olan metin tanıma ile baş eder.

Readiris'in iki ücretli sürümü mevcuttur. Pro lisansının maliyeti 99,00€, Kurumsal - 199€'dur. Neredeyse ABBYY'ye benziyor.

Freemore OCR'ı

Freemore OCR - (! program web sitesi http://freemoresoft.com/freeocr/index.php yükleyicide yerleşik "çöp" reklamı nedeniyle antivirüsler tarafından engellenebilir) - metinleri de iyi tanıyan başka bir basit, kompakt ve ücretsiz yardımcı program, ancak varsayılan olarak yalnızca İngilizce'dir. Diğer dil paketlerinin ayrıca indirilip kurulması gerekir.

Freemore OCR'nin diğer özellikleri ve yetenekleri:

Birkaç tarayıcıyla eşzamanlı çalışma.
Psd (Adobe Photoshop dosyası) gibi tescilli olanlar da dahil olmak üzere birçok grafik veri formatını destekler. Tüm standart grafik formatları desteklenir.
PDF desteği.
Bitmiş sonucu pdf, txt veya docx formatında kaydetmek ve metni Word'e aktarmak için araç çubuğundaki bir düğmeyi tıklamanız yeterlidir.
Yerleşik düzenleyici (maalesef program kaynak belgenin biçimlendirmesini kaydetmiyor).
Belge özelliklerini görüntüleyin.
Tanınan metni doğrudan ana pencereden yazdırın.
Pdf dosyalarının şifre koruması.

İlk bakışta programın arayüzü karmaşık görünebilir ancak aslında kullanımı oldukça kolaydır. Araçlar, Microsoft Office şeridine benzer şekilde gruplara ayrılmıştır. Onlara daha yakından bakarsanız, şu veya bu düğmenin amacı hızla anlaşılacaktır.

Freemore OCR penceresine elektronik bir belge yüklemek için önce türünü (resim veya pdf dosyası) seçin ve ardından ilgili "Yükle" düğmesine tıklayın. Tanıma işlemini başlatmak için, sihirli değnek görüntüsünün yanındaki (ekran görüntüsünde gösterilen) aynı adlı araç grubundaki "OCR" düğmesine tıklayın.

Hem iyi okunabilen hem de okunması zor görsellerden İngilizce metinlerin taranmasının sonucu oldukça tatmin edici çıktı. Sevmediğim tek şey, programla birlikte bilgisayara her türlü çöpün de yüklenmesiydi - bazı sahte anti-virüs tarayıcıları, optimize ediciler ve diğer gereksiz şeyler ve kurulum sırasında bunları reddetme yeteneği olmadan. Kısacası, bu dezavantaj olmasaydı uygulama FineReader'a iyi bir ücretsiz alternatif olarak önerilebilirdi.

Tünaydın.

Muhtemelen her birimiz kağıt belgeyi elektronik forma dönüştürme göreviyle karşı karşıya kaldık. Bu özellikle çalışanlar, belgelerle çalışanlar, elektronik sözlükleri kullanarak metinleri çevirenler vb. için gereklidir.

Herkes bir şeyi hemen anlamıyor. Taradıktan sonra (tüm sayfaları tarayıcıya sığdırdıktan sonra), BMP, JPG, PNG, GIF formatlarında resimleriniz olacaktır (başka formatlar da olabilir). Yani bu resimden metin almanız gerekiyor - bu işleme tanıma denir. Aşağıdakiler bu sırayla sunulacaktır.

1. Tarama ve tanıma için ne gereklidir?

1) Tarayıcı

Basılı belgeleri metin biçimine dönüştürmek için öncelikle bir tarayıcıya ve buna bağlı olarak onunla birlikte gelen "yerel" programlara ve sürücülere ihtiyacınız vardır. Bunları kullanarak bir belgeyi tarayabilir ve daha sonraki işlemler için kaydedebilirsiniz.

Diğer analogları kullanabilirsiniz, ancak tarayıcıyla birlikte gelen yazılım genellikle daha hızlı çalışır ve daha fazla seçeneğe sahiptir.

Ne tür bir tarayıcıya sahip olduğunuza bağlı olarak işlem hızı önemli ölçüde değişebilir. Bir sayfadan görüntüyü 10 saniyede alabilen tarayıcılar var ve onu 30 saniyede alabilen tarayıcılar var. 200-300 sayfalık bir kitabı taradığınızda aradaki zaman farkının kaç kat olacağını hesaplamak sanırım zor değil mi?

2) Tanıma programı

Makalemizde, kesinlikle her türlü belgeyi taramak ve tanımak için en iyi programlardan biri olan ABBYY FineReader'da çalışmanızı göstereceğim. Çünkü Program ücretli, o zaman size hemen başka bir programın bağlantısını vereceğim - onun ücretsiz analogu. Doğru, onları karşılaştırmayacağım çünkü FineReader her bakımdan kazandığı için yine de denemenizi tavsiye ederim.

ABBYY FineReader 11

Türünün en iyi programlarından biri. Bir resimdeki metni tanımak için tasarlanmıştır. Birçok seçenek ve işlev yerleşiktir. Bir dizi yazı tipini ayrıştırabilir, hatta el yazısı versiyonlarını bile destekleyebilir (her ne kadar kişisel olarak denememiş olsam da, mükemmel kaligrafi el yazınız olmadığı sürece el yazısı versiyonunu iyi tanımanızın pek mümkün olmadığını düşünüyorum). Bununla çalışmak aşağıda daha ayrıntılı olarak açıklanacaktır. Burada makalenin programın 11. versiyonunda çalışmaktan bahsedeceğini not ediyoruz.

Kural olarak ABBYY FineReader'ın farklı sürümleri birbirinden pek farklı değildir. Aynısını bir başkasında da kolaylıkla yapabilirsiniz. Temel farklar programın rahatlığı, hızı ve yeteneklerinde olabilir. Örneğin önceki sürümler PDF ve DJVU belgesini açmayı reddediyor...

3) Taranacak belgeler

Evet, aynen böyle, belgeleri ayrı bir sütuna koymaya karar verdim. Çoğu durumda bazı ders kitaplarını, gazeteleri, makaleleri, dergileri vb. tararlar. talep gören kitaplar ve edebiyat. Bununla nereye varıyorum? Kişisel deneyimime dayanarak, taramak istediğiniz şeylerin çoğunun muhtemelen zaten internette bulunduğunu söyleyebilirim! Belirli bir kitabı zaten çevrimiçi olarak taranmış bulduğumda kişisel olarak kaç kez zaman kazandım. Tek yapmam gereken metni belgeye kopyalamak ve onunla çalışmaya devam etmekti.

Bu basit bir tavsiye; bir şeyi taramadan önce, birisinin onu daha önce tarayıp taramadığını kontrol edin, böylece zamanınızı boşa harcamanıza gerek kalmaz.

2. Metin tarama seçenekleri

Burada tarayıcı sürücülerinizden, onunla birlikte gelen programlardan bahsetmeyeceğim, çünkü tüm tarayıcı modelleri farklıdır, yazılım da her yerde farklıdır ve bırakın işlemin nasıl gerçekleştirileceğini açıkça göstermek şöyle dursun, tahmin etmek bile gerçekçi değildir.

Ancak tüm tarayıcılar aynı ayarlara sahiptir ve bu da işinizin hızını ve kalitesini büyük ölçüde etkileyebilir. Burada tam da bunu konuşacağız. Bunları sırasıyla listeleyeceğim.

1) Tarama kalitesi - DPI

Öncelikle seçeneklerdeki tarama kalitesini en az 300 DPI olarak ayarlayın. Hatta mümkünse daha fazlasını ayarlamanız tavsiye edilir. DPI ne kadar yüksek olursa görüntünüz o kadar net olur ve dolayısıyla ilerideki işlemler de o kadar hızlı olur. Ayrıca tarama kalitesi ne kadar yüksek olursa, daha sonra düzeltmeniz gereken hatalar da o kadar az olur.

En uygun seçenek genellikle 300-400 DPI sağlar.

2) Renk

Bu parametre tarama süresini büyük ölçüde etkiler (bu arada DPI da etkiler, ancak yalnızca bu kadar ve yalnızca kullanıcı yüksek değerler ayarladığında).

Tipik olarak üç mod vardır:

Siyah beyaz (basit metinler için harika);

Gri (tablo ve resim içeren metinler için uygundur);

Renk (renkli dergiler, kitaplar ve genel olarak rengin önemli olduğu belgeler için).

Genellikle tarama süresi renk seçimine bağlıdır. Sonuçta, belgeniz büyükse, sayfanın tamamında fazladan 5-10 saniye geçirmek bile makul bir süre ile sonuçlanacaktır...

3) Fotoğraflar

Bir belgeyi yalnızca tarayarak değil, fotoğrafını çekerek de alabilirsiniz. Kural olarak, bu durumda başka sorunlarla da karşılaşacaksınız: resimde bozulma, bulanıklık. Bu nedenle, ortaya çıkan metnin daha uzun süre düzenlenmesi ve işlenmesi gerekebilir. Kişisel olarak bu konuda kamera kullanılmasını önermiyorum.

Bu tür her belgenin tanınamayacağına dikkat etmek önemlidir, çünkü tarama kalitesi son derece düşük olabilir...

3. Belge metni tanıma

ABBYY FineReader'da bir resmi açtıktan sonra program, kural olarak otomatik olarak alanları vurgulamaya ve bunları tanımaya başlar. Ama bazen bunu doğru yapmıyor. Bu amaçla gerekli alanları manuel olarak seçmeyi değerlendireceğiz.

Önemli! Programda bir belgeyi açtıktan sonra, orijinal belgenin çeşitli alanları seçtiğiniz pencerede solda görüntülendiğini herkes hemen anlamıyor. "Tanıma" butonuna tıkladıktan sonra program, bitmiş metni sağdaki pencerede görüntüleyecektir. Bu arada, tanımanın ardından aynı FineReader'da metinde hatalar olup olmadığını kontrol etmeniz önerilir.

3.1 Metin

Bu alan metni vurgulamak için kullanılır. Resimler ve tablolar bunun dışında tutulmalıdır. Nadir ve olağandışı yazı tiplerinin manuel olarak girilmesi gerekecek...

Bir metin alanını vurgulamak için FineReader'ın üst kısmındaki çubuğa bakın. Bir “T” düğmesi vardır (aşağıdaki ekran görüntüsüne bakın, fare işaretçisi bu düğmenin tam üzerindedir). Üzerine tıklayın, ardından aşağıdaki resimde metnin bulunduğu düzgün bir dikdörtgen alan seçin. Bu arada, bazı durumlarda sayfa başına 2-3, bazen de 10-12'lik metin blokları oluşturmanız gerekir, çünkü... Metin formatı farklı olabilir ve bir dikdörtgen tüm alanı vurgulayamaz.

Metin alanında görsellerin yer almaması gerektiğine dikkat etmek önemlidir! Bu size gelecekte çok zaman kazandıracak...

3.2 Resimler

Resimleri ve düşük kalite veya olağandışı yazı tipi nedeniyle tanınması zor olan alanları vurgulamak için kullanılır.

Aşağıdaki ekran görüntüsünde fare işaretçisi “resim” alanını vurgulamak için kullanılan düğmenin üzerindedir. Bu arada, bu alanda sayfanın kesinlikle herhangi bir bölümünü seçebilirsiniz ve FineReader bunu belgeye normal bir resim olarak ekleyecektir. Onlar. sadece “aptalca” kopyalar...

Genellikle bu alan, kötü taranmış tabloları vurgulamak, standart olmayan metin ve yazı tipini ve hatta resimleri vurgulamak için kullanılır.

3.3 Tablolar

Aşağıdaki ekran görüntüsünde tabloları vurgulamak için bir düğme gösterilmektedir. Genel olarak şahsen çok nadiren kullanıyorum. Mesele şu ki, masadaki her çizgiyi oldukça rutin bir şekilde (neredeyse) çizmeniz ve programa neyin ve nasıl olduğunu göstermeniz gerekecek. Tablo küçükse ve çok kaliteli değilse bu amaçlar için “resim” alanını kullanmanızı öneririm. Bu size çok zaman kazandıracak ve daha sonra Word'de resme dayalı olarak hızlı bir şekilde bir tablo oluşturabilirsiniz.

3.4 Gereksiz unsurlar

Bunu not etmek önemlidir. Bazen sayfada metin tanımayı engelleyen, hatta istediğiniz alanı seçmenizi engelleyen gereksiz öğeler bulunabilir. Bir silgi kullanılarak tamamen çıkarılabilirler.

Bunu yapmak için resim düzenleme moduna gidin.

Silgi aracını seçin ve gereksiz alanı seçin. Silinecek ve yerine beyaz bir kağıt gelecek.

Bu arada bu seçeneği olabildiğince sık kullanmanızı öneririm. Seçtiğiniz, bir metin parçasına ihtiyaç duymadığınız veya gereksiz noktalar, bulanıklıklar, bozulmaların olduğu tüm metin alanlarını silgiyle kaldırmaya çalışın. Bu sayede tanınma daha hızlı olacak!

4. PDF/DJVU dosya tanıma

Genel olarak bu tanıma formatı diğerlerinden hiçbir şekilde farklı olmayacaktır; Bununla resimlerle aynı şekilde çalışabilirsiniz. Tek şey programın çok eski bir sürüm olmamasıdır; eğer PDF/DJVU dosyaları sizde açılmazsa sürümü 11’e güncelleyin.

Küçük bir tavsiye. FineReader'da bir belgeyi açtıktan sonra otomatik olarak belgeyi tanımaya başlayacaktır. Genellikle PDF/DJVU dosyalarında sayfanın belirli bir alanının belgenin tamamında bulunmasına gerek yoktur! Böyle bir alanı tüm sayfalardan kaldırmak için aşağıdakileri yapın:

1. Resim düzenleme bölümüne gidin.

2. "Kırpma" seçeneğini açın.

3. Tüm sayfalarda ihtiyacınız olan alanı seçin.

4. Tüm sayfalara uygula'yı tıklayın ve kırpın.

5. Hataların kontrol edilmesi ve çalışma sonuçlarının kaydedilmesi

Görünüşe göre, tüm alanlar vurgulandığında, sonra tanındığında başka ne gibi sorunlar olabilir - alın ve kaydedin... Ama durum böyle değildi!

İlk önce belgeyi kontrol etmeniz gerekiyor!

Bunu etkinleştirmek için, tanındıktan sonra sağdaki pencerede bir "kontrol et" düğmesi olacaktır, aşağıdaki ekran görüntüsüne bakın. Buna tıkladıktan sonra FineReader programı, programın hata yaptığı ve belirli bir karakteri güvenilir bir şekilde tanımlayamadığı alanları otomatik olarak size gösterecektir. Tek yapmanız gereken, ya programın görüşüne katılırsınız ya da kendi karakterinizi girersiniz.

Bu arada, vakaların yaklaşık yarısında program size hazır bir doğru kelime sunacaktır - tek yapmanız gereken fareyle istediğiniz seçeneği seçmektir.

İkinci olarak kontrol ettikten sonra çalışmanızın sonucunu kaydedeceğiniz formatı seçmeniz gerekiyor.

Burada FineReader sonuna kadar gitmenizi sağlar: Bilgileri Word'e bire bir aktarabilirsiniz veya düzinelerce formattan birinde kaydedebilirsiniz. Ancak bir başka önemli hususun altını çizmek isterim. Hangi formatı seçerseniz seçin, kopyanın türünü seçmek daha önemlidir! Gelin en ilginç seçeneklere bakalım...

Tam kopya

Tanınan belgedeki sayfada seçtiğiniz tüm alanlar, orijinal belgeyle tam olarak eşleşecektir. Metin biçimlendirmesini kaybetmemenizin önemli olduğu durumlarda çok kullanışlı bir seçenek. Bu arada yazı tipleri de orijinaline çok benzeyecek. Bu seçenekle, daha fazla çalışmaya devam etmek için belgeyi Word'e aktarmanızı öneririm.

Düzenlenebilir kopya

Bu seçenek iyidir çünkü metnin önceden biçimlendirilmiş bir sürümünü alacaksınız. Onlar. Orijinal belgede olabilecek "kilometre" girintilerini bulamazsınız. Bilgileri önemli ölçüde düzenleyeceğiniz durumlarda kullanışlı bir seçenek.

Doğru, tasarım stilini, yazı tiplerini ve girintileri korumanın sizin için önemli olup olmadığını seçmemelisiniz. Bazen tanıma çok başarılı olmazsa, değişen biçimlendirme nedeniyle belgeniz "çarpık" hale gelebilir. Bu durumda tam bir kopyanın seçilmesi tavsiye edilir.

Basit metin

Başka hiçbir şeye ihtiyaç duymadan yalnızca sayfadaki metne ihtiyaç duyanlar için bir seçenek. Resim ve tablo içermeyen belgeler için uygundur.

Bu, belge tarama ve tanıma hakkındaki makaleyi sonlandırıyor. Umarım bu basit ipuçlarıyla sorunlarınızı çözebilirsiniz...

Metin tanıma çok kullanışlı bir özelliktir. Artık kitaplardan ve makalelerden büyük ciltleri yeniden yazmanıza gerek yok. Öğretmenler, öğrenciler ve araştırmacılar için bu tür yazılım uygulamaları gerçek bir hediyedir. Farklı uygulamalara bakalım ve bir resimdeki metni tanımak için hangi programın en iyi olduğunu belirleyelim.

Nasıl çalışır

Optik Karakter Tanıma (OCR), metni grafiksel bir formdan (fotoğraf, tarama, pdf) normal bir formata dönüştürme yeteneğidir. Dönüştürülen metin düzenlenebilir.
Herhangi bir raster görüntü noktalardan oluşur. Tanıma yazılımı bir resimdeki harfleri tanımlar ve bunları metne dönüştürür. Dokümanın yapısı analiz edilir. Metin blokları vurgulanır. Daha sonra kelimelere ve ardından sembollere bölünen çizgiler çizilir. Her karakter kalıplarla karşılaştırılır. Daha sonra ne tür bir sembol olduğuna dair hipotezler ortaya atılıyor. Yazılım, bunlara dayanarak satırları kelimelere ve kelimeleri karakterlere bölmek için farklı seçenekleri analiz eder. Bu tür hipotezlerin sayısı oldukça fazladır. Sonunda program bir karar verir ve metni çıktı olarak verir.

Yazılıma genel bakış

Geleneksel olarak, tüm uygulamalar üç kategoriye ayrılabilir:

Paralı.
Özgür.
Çevrimiçi hizmetler.

Her bölümden çeşitli seçeneklere bakalım.

Ücretli ve ücretsiz programlar

OCR Çivi Formu

Taranan metni tanımak için buradan indirebileceğiniz ücretsiz program.

Uygulama 1993 yılında Bilişsel Teknolojiler tarafından geliştirilmiştir. O zamanki ana özelliklerinden biri, Rusça ve İngilizce dillerinin bir karışımını tanıyabilmesiydi. 2009 yılında, diğer dillerin karışımının tanınmasına olanak tanıyan bir şube eklendi. Yazılım ürünü, önde gelen üreticilerin tarayıcıları ve MFP'leriyle birlikte sağlandı: Hewlet-Pachard, Epson, Xerox, vb. En son sürüm 2009'da yayınlandı.
İndirip yükledikten sonra metni tanımaya çalışıyoruz. Bu makaleyi örnek olarak ele alalım.

Programın arayüzü basit, menü Rusça.

Klasör simgesine tıklayın ve görüntüyü yükleyin. Tanıma düğmesine basın.

Sonuç etkileyici değil. Çok renkli metin tanınmıyor.

Farklı sözlüklerin kullanılmasına rağmen İngilizce de yeterince tanınmıyordu.

Genel olarak ideal bir fotoğraf sembollere dönüştürülebilir ancak orijinal görüntünün kalitesi ne kadar düşükse sonucun kalitesi de o kadar düşük olur.
Bunun, yasal olarak ücretsiz olarak indirilen, tarama için tek Ruslaştırılmış metin tanıma programı olduğuna dikkat edilmelidir. Diğerlerinin en iyi ihtimalle ücretsiz deneme süresi vardır.

RiDoc

30 günlük ücretsiz deneme süresiyle, bir fotoğraftaki veya tarayıcıdaki metni tanımaya yönelik bir program. Buradan indirebilirsiniz.

Uygulama iyi bir işlevselliğe ve erişilebilir bir arayüze sahiptir. Resmi yüklemek için “Aç” butonuna tıklayın.

Sonraki “Tanı” butonudur.

Sonuç olarak bitmiş sonucu elde ederiz. Word veya OpenOffice'de açılabilir.

İşte sonuç.

Ayrıca ideal değil, ancak önceki duruma göre çok daha fazlası.
Ayrıca filigran ekleyebilir veya birkaç resmi birleştirebilirsiniz.

ReadIris

100 sayfalık veya 10 günlük deneme sürümüne sahip ücretli yazılım ürünü. Metin tanıma için tarayıcı programını buradaki resmi web sitesinden indirebilirsiniz.

Geliştirici, 1986 yılında kurulan Belçika şirketi IRIS'tir. Ana uzmanlık, akıllı belge tanımaya yönelik teknolojiler ve ürünlerdir.

Program bir resmi, PDF dosyasını veya taranmış belgeyi tamamen düzenlenebilir bir metin dosyasına dönüştürür. Orijinal dosyanın düzenini korurken belgelerinizden metni çıkarır. Aşağıdaki özelliklere sahiptir:

Word, Excel ve PowerPoint dosyalarını indekslenmiş PDF dosyalarına dönüştürün;
bağlam menüsünü kullanarak belgeleri dönüştürme;
içe aktarılan belgeler için kalite göstergesi;
tarayıcıların otomatik tespiti;
perspektif düzeltme modülü.

Programın arayüzü Ruslaştırılmıştır (kurulum sırasında belirtilir) ve oldukça basittir.

“Dosyadan” butonuna tıklayın ve görselimizi seçin. Program onu otomatik olarak iki bloğa böldü.

Tanıma için “Aç” düğmesine tıklayın ve görüntünün yolunu belirtin. Format yukarıdaki satırda belirtilmiştir.

Sonuç tüm beklentileri aştı. Anahat bile korunmuştur.

Belgeyi postayla veya buluta gönderebilirsiniz. Bunu yapmak için yukarıdaki listeye tıklayın ve seçin. Varsayılan olarak bir dosyaya kaydedilir.

Bu programın maliyeti yaklaşık 6.000 ruble.

ABBYY FineReader

En ünlü ve tanıtılan program. Deneme sürümünü buradan indirebilirsiniz.

Ödenen maliyet 6990 ruble. Rusya'nın 1993'teki gelişimi hala dünyanın en iyilerinden biri olarak kabul ediliyor. Ana Özellikler:

Tablo ve grafiklerin, matematiksel formüllerin tanınması.
PDF'yi görüntüleyin ve gezinin.
PDF oluşturun ve doğrudan düzenleyin.
Dijital imzayla çalışma.
Belgelerin karşılaştırılması.
Yorumlar ekleniyor.

Programın birçok özelliği bulunmaktadır. Arayüz Ruslaştırılmıştır ve erişilebilirdir.

“Aç” butonuna tıklayıp bir resim seçtikten sonra otomatik olarak bloklara bölünme başlar.

İşlemi başlatmak için uygun düğmeye tıklayın.

Geriye kalan tek şey hangi formatta kaydedileceğini seçmek ve belgenin kaydedileceği klasörü belirtmektir.

Sonucu açalım. Gördüğünüz gibi tanıma mükemmel bir şekilde gerçekleşti.

ReadIris ile tekrar karşılaştırın.

İlk seçenek (Finereader) kusursuz bir şekilde yürütülür. Bu nedenle belki de avuç içimizi bu programa veriyoruz. Fiyat olarak karşılaştırılabilirler, bu nedenle 600-700 ruble arasındaki fark özel bir rol oynamıyor.

Çevrimiçi fotoğraflardan metin tanıma

IMGonline

Çevrimiçi görüntü işleme hizmeti. Site aşağıdaki araçları sağlar:

Resmi sıkıştırın ve yeniden boyutlandırın
Kırpma, kırpma
Gömülü meta verileri işleme
Etkileri
İyileştirmeler
Renk paleti resimlerinin tanımı
Arka planı alma
Benzerlik yüzdesinin belirlenmesi vb.

Görüntü işleme için birçok olanak sağlayan kullanışlı bir site. Arayüz basit ve anlaşılır.

İki program sunar. Hadi karşılaştıralım. Dosyayı yükleyin ve Tamam'a tıklayın.

Daha sonra bağlantıya tıklayın.

Sonuç cesaret verici değil.

İkinci programı deneyelim.

Ayrıca şüpheli.

Ek bir dil ayarlayalım.

Sonucu kontrol edelim.

Biraz daha iyi ama mükemmel olmaktan uzak.

img2txt

Çevrimiçi fotoğraflardan metin tanıma programı taramaya izin vermiyor.

Site 2014 yılından bu yana faaliyet göstermektedir. Geliştiriciler mevcut hizmetin dışında başka bir hizmet planlamıyor.

Dosyayı seçin ve "Yükle"ye tıklayın. Daha sonra “Tanımayı başlat”a tıklayın.

Sonuç da mükemmel olmaktan uzaktır.

Dönüşüm

Aşağıdaki özelliklerden yararlanabileceğiniz oldukça büyük bir ücretli portal:

Videoyu, sesi, resimleri dönüştürün.
PDF'yi Word, Excel, PowerPoint'e dönüştürün.
PDF Bölme.
PDF, PNG vb. sıkıştırın.

Çalışma prensibi kesinlikle benzer, ancak daha fazla ayar var. Resimler sürükleyip bırakılabilir.

Birkaç dili ve sonucun kaydedileceği belge türünü belirtebilirsiniz.

Kayıtlı olmayan kullanıcılar tanınma için yalnızca 10 sayfaya erişebilir.
Captcha'ya tıkladıktan sonra "Dönüştür" seçeneğini seçin.

İndir'i tıklayın.

Sonuç tüm beklentileri aştı.

Basit çevrimiçi hizmetlerin aynı zamanda yüksek kalitede tanınma sağlama yeteneğine sahip olduğu ortaya çıktı. Böylece Convertio bu kategorinin açık ara kazananı ilan edildi. Ancak her harika ürün gibi bunun da bir bedeli var.

Bu yüzden çeşitli OCR araçlarına baktık. Ücretsiz olanların yardımcı olabileceği ortaya çıktı, ancak kalite aynı seviyede değil. Dolayısıyla, metni sürekli olarak basılı metinden elektronik ortama dönüştürmeniz gerekiyorsa, biraz para ödemeniz gerekecektir.

İyi günler!

Bir resim, fotoğraf veya pdf dosyasındaki metnin yüksek kalitede tanınması ve sayısallaştırılması için bir program Bir öğrenci olarak benim için faydalı oldu. Sonuçta, taranmış veya fotoğraflanmış ders notlarının yeniden basılması çok zaman alıcı ve emek yoğun bir işti. Elbette metni dijitalleştiren bir program buldum ama yine de sütunları, tabloları veya listeleri manuel olarak oluşturmak zorunda kaldım. ReadIris ile bu sorunu yaşamazsınız!

Genel olarak ReadIris şu anda optik karakter tanıma için en güçlü sistemdir. Hem bu işe yeni başlayanlar hem de metin sayısallaştırmayla uğraşmak zorunda olan deneyimli kullanıcılar tarafından zaten takdir edilmiştir. ReadIris yalnızca standart alfanümerik metni değil aynı zamanda formülleri, barkodları ve çeşitli sembolleri de tanıyabilir. Ayrıca dijitalleştirilmiş metni HTML, DOC, RTF, CSV ve TXT formatlarında kaydetmenize olanak tanır.

Metin tanıma programını indirin

ReadIris metin tanıma programını aşağıdaki bağlantıdan ücretsiz olarak indirebilirsiniz. En yaygın ofis programlarının tümü ile tamamen uyumludur: Microsoft Office, StarOffice ve OpenOffice. Şu anda başka hiçbir benzer uygulama bununla övünemez! Rusça ReadIris arayüzü basit ve anlaşılır olduğundan herhangi bir ek bilgiye ihtiyacınız yoktur. Kurulumdan sonra, yalnızca programı başlatmanız, ihtiyacınız olan metin görüntüsünü herhangi bir formatta açmanız yeterlidir; işte bu kadar; hazır dijitalleştirilmiş metin zaten cihazınızda!