Haber metinleri veya haber içerikli makaleleri, makine öğrenmesi tabanlı algoritmalar ile özetlemek için geliştirilmiş açık kaynak kodlu bir kütüphanedir. Bu kütüphaneye ek olarak geliştirilmiş haber metni özetleyici Chrome tarayıcı eklentisi ve veri toplama/etiketleme araçları ile birlikte, hem Türkçe Doğal Dil İşleme ile uğraşanlar için, hem de son kullanıcılar için faydalı olmayı hedeflemiştir.
Sadedegel Açık Kaynak Hackathon Programı 2020 kapsamında geliştirilmektedir.
Daha fazla bilgi için sunumumuza göz atabilirsiniz:
Haber metinlerindeki cümleler BERT modelden geçirilerek elde edilen embeddingler birden fazla kümeleme tekniği (clustering) kullanılarak öbeklenir ve öbekleri (clusteri) en iyi (distance metric) ifade ettiği düşünülen cümleler özet olarak verilir.
$ pip install sadedegel
Kurulum yapıldıktan sonra sadedegel.load() ile kullanabilirsiniz.
import sadedegel
from sadedegel.dataset import load_sentence_corpus, load_raw_corpus
nlp = sadedegel.load()
tokenized = load_sentence_corpus()
raw = load_raw_corpus()
summary = nlp(raw[0])
summary = nlp(tokenized[0], sentence_tokenizer=False)
Sadedegel Chrome eklentisi SadedeGel kütüphanesinin son kullanıcılar tarafından da kullanılabilmesi için geliştirilmiştir. Eklentiyi kurduktan sonra desteklenen haber sitelerinin yazarlar sayfasından açacağınız herhangi bir haberi özetleyebilirsiniz.
Haberin içeriğini alarak istatiksel bilgiler elde eder. Elde edilen bu verilerden haber özelinde dinamik olarak özet uzunluklarını belirler.
Özetleme servisini çağırır ve kullanıcıya haber özetini gösterir.
Kolay kurulum için lütfen Chrome Mağazasını ziyaret ediniz.
Eklentiyi Chrome geliştirici modunda kurmak ya da katkıda bulunmak için Github sayfasındaki adımları takip edebilirsiniz.
Sadedegel kütüphanesinin Türkçe haber metni ihtiyacını karşılayabilmek için açık kaynak jsoup kütüphanesi kullanılarak Scala dili ile geliştirilmiş bir uygulamadır.
Haber sitesi için verilen yazarlar listesini kullanır. Sayfalama yaparak yazarın yazılarını haber başlığı dosya ismi olacak şekilde .txt uzantılı bir dosyaya kaydeder.
Uygulamayı paketleyebilmeniz için sbt bilgisayarınızda kurulu olmalıdır.
Detaylı kurulum adımları için Github sayfasını ziyaret edebilirsiniz.
Sadedegel projesi kapsamında geliştirdiğimiz veri etiketleme aracını kullanarak, extraction based özetleme tekniği ile özetlenmiş veri setlerini hızlıca oluşturabilir ve makine öğrenmesi projelerinizde kullanabilirsiniz.
Electronjs tabanlı, cross-platform ve açık kaynak kodlu bir uygulamadır. Detaylara Github üzerinden ulaşabilirsiniz.
Sadedegel Veri Etiketleme aracı, her turda metnin anlamına en az katkı sağlayan cümlelerin elenmesi ile ilerler. Metin en kısa haline ulaşana kadar bu işlem devam eder. Cümlelerin hangi turda elendiği bilgisi, cümlenin metin içindeki önemini gösteren bir etiket oluşturur.
$ git clone https://github.com/GlobalMaksimum/sadedegel-annotator.git $ cd sadedegel-annotator $ npm install sadedegel
$ npm start
Experienced Owner with a demonstrated history of working in the computer software industry. Skilled in Performance Tuning, Oracle Database, Data Migration, Extract, Transform, Load (ETL), and Databases. Strong entrepreneurship professional with a BSc focused in Computer Science from Bosphorus University.